在 Dask 数组上使用 scikit-learn cosine_similarity - python

2024-01-25

我有 Dask 来处理无法放入内存的大量向量,并使用 scikit-learn cosine_similarity 来计算这些向量之间的余弦相似度,即:

import dask.array as da
from sklearn.metrics.pairwise import cosine_similarity
vectors = da.from_array(vectors, 10000)
sims_mat = cosine_similarity(vectors)

工作正常,但我不确定这样我是否有使用 Dask 的任何好处,或者我应该为 dask 数组寻找余弦相似函数


在我看来这应该没问题,因为如果你检查两者的文档dask and sklearn,你会发现两者都是建立在上面的numpy,它使用并行处理。

如果你真的只想使用 dask,你可以查看这个 repo:https://pypi.python.org/pypi/dask-distance https://pypi.python.org/pypi/dask-distance

它包括余弦相似度函数。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

在 Dask 数组上使用 scikit-learn cosine_similarity - python 的相关文章

随机推荐

  • Java中如何实现并发读取映射到内存的文件?

    我有很多线程同时读取同一个文件 总共大约100M 并且只有一个线程更新文件 我想将文件映射到内存中以减少FILE I O 在 Java 中如何做到这一点 我基本上考虑了以下2种方法 用字节数组存储文件 多线程读取时每次创建ByteArray
  • 为什么 CarPlay 在真车上会崩溃?

    我有一个音频应用程序并已实现 CarPlay 我已按照本指南添加 CarPlay 支持 https blog fethica com add carplay support to swiftradio https blog fethica
  • 您在开发中如何处理 SSL?

    我有一个应用程序 它的一些路由与ssl 要求 http github com rails ssl requirement插入 它已部署并且在生产中运行良好 问题是如何在开发中最好地处理这个问题 因为目前我只是简单地破解我的routes rb
  • 使用php从h1标签获取所有值

    我想接收一个包含文本中所有 h1 标签值的数组 例如 如果给定的输入字符串 h1 hello h1 p random text p h1 title number two h1 我需要接收一个包含以下内容的数组 titles 0 hello
  • SQL Reporting Services - Mozilla 中未显示打印按钮

    我在用SQL 报告服务 它工作正常并显示打印按钮IE 但在 Mozilla Firefox 中未显示 有人有什么主意吗 我已经检查过这个解决方案 但它不起作用 http social msdn microsoft com Forums en
  • 网络直径是什么意思?

    上图所示这个链接 http en wikipedia org wiki Vertex 28graph theory 29的 具有 6 个顶点和 7 个边的图 其中最左侧的 6 号顶点是叶顶点或下垂顶点 有直径4吗 对还是错 定义是 图的直径
  • Sequelize关系查询返回重复数据

    我正在使用 Sequelize 关系查询指定客户的客户订单 index js var results2 await customerService getOrders 1 console log results2 服务 js exports
  • Firefox 中的大子字符串比 Chrome 快约 9000 倍:为什么?

    基准 http jsperf com substringing http jsperf com substringing 因此 我正在启动我的第一个基于 HTML5 浏览器的客户端项目 本质上 它必须将非常非常大的文本文件解析为一个或多个对
  • 同时使用 INADDR_ANY 和特定 IP 绑定到同一端口

    python 中的一个简单实验 在 Windows 上 表明我能够同时绑定到通配符地址和特定地址上的同一端口 import socket import select MY PORT 13337 sany socket socket sany
  • 使用 Contains 方法检查 List 中的 float 时的 C# 准确性

    我有一个清单floats 并想要检查它是否已经包含特定值List Contains 方法 我知道对于float您经常无法使用的相等性测试 但类似的东西myFloat value lt 0 001 我的问题是 Contains方法说明了这一点
  • VB.NET 中的递归文件搜索

    我有一个函数可以对文件进行递归目录搜索 但是当我搜索驱动器时 我收到访问被拒绝错误 从而停止搜索 我怎样才能避免这些错误 这是我使用的函数 lstSearch GetFilesRecursive FolderBrowserDialogMai
  • Mockito Matchers isA、any、eq 和 Same 之间有什么区别?

    我对它们之间的区别以及在哪种情况下选择哪一个感到困惑 有些差异可能很明显 例如any and eq 但我将它们全部包括在内只是为了确定 我想知道它们的差异 因为我遇到了这个问题 我在 Controller 类中有这个 POST 方法 pub
  • 在没有锁定的情况下读取同时修改的整数变量是否安全?

    假设我在一个类中有一个整型变量 并且这个变量可能会被其他线程并发修改 写入受互斥体保护 我也需要保护读取吗 我听说有一些硬件架构 如果一个线程修改一个变量 而另一个线程读取它 那么读取的结果将是垃圾 在这种情况下 我确实需要保护读取 但我从
  • 如何在 WebPack 构建环境中将 CryptoJS 与 Angular 2 和 TypeScript 一起使用?

    关于将 CryptoJS 库与 Angular 2 一起使用存在很多问题 但大多数都假设使用 SystemJS 并且所有问题似乎都与当前版本的 TypeScript 过时了 任何人都可以就如何将 CryptoJS 库与 Angular 2
  • glViewport 在 Android 和 iOS 中的不同结果

    我刚刚开始使用 opengl es 为我的跨平台框架 iOS 和 Android 开发渲染器 当我到达视口内容 分屏内容所需 时 我注意到 iOS 和 Android 之间存在差异 这是两张图片 Android其实还有一个毛病 它似乎结束了
  • Python telnetlib:令人惊讶的问题

    我正在使用 Python 模块 telnetlib 创建一个 telnet 会话 使用国际象棋服务器 但我遇到了一个我实在无法解决的问题 下面的代码可以完美运行 gt gt gt f login my server code for log
  • 将视频上传到 googlevideo.com

    也许这个问题听起来很愚蠢 但我真的需要答案 我需要知道如何将视频上传到 googlevideo com 如下网址 https r2 sn 4pgnuhxqp5 jb3s googlevideo com videoplayback requi
  • 保存文件 - xmlSerializer

    我正在创建一个使用以下代码序列化文件的方法 public void Save Object file Type type String path Create a new Serializer XmlSerializer serialize
  • F# 交互式 CsvProvider 未定义

    我正在交互式控制台中加载 FSharp Data 库加载没有任何问题 gt r FSharp Data dll gt Referenced C Users pw AppData Local Temp FSharp Data dll file
  • 在 Dask 数组上使用 scikit-learn cosine_similarity - python

    我有 Dask 来处理无法放入内存的大量向量 并使用 scikit learn cosine similarity 来计算这些向量之间的余弦相似度 即 import dask array as da from sklearn metrics