在 R 中快速计算 > 10^6 余弦向量相似度

2024-04-13

我得到了约 1600 个文档 x 约 120 个单词的文档术语矩阵。我想计算所有这些向量之间的余弦相似度，但我们正在谈论约 1,300,000 次比较 [n * (n - 1) / 2]。

我使用了 parallel::mclapply 和 8 但它仍然需要很长时间。

您建议采用哪种其他解决方案？

Thanks

这是我的看法。

如果我将余弦相似度定义为

coss <- function(x) {crossprod(x)/(sqrt(tcrossprod(colSums(x^2))))}

（我认为这大约是我用基本 R 函数和经常被监督的函数所能达到的最快速度crossprod这是一个小宝石）。如果我将它与使用 RCppArmadillo 的 RCpp 函数进行比较（按照@f-privé的建议稍微更新）

NumericMatrix cosine_similarity(NumericMatrix x) {
  arma::mat X(x.begin(), x.nrow(), x.ncol(), false);

  // Compute the crossprod                                                                                      
  arma::mat res = X.t() * X;
  int n = x.ncol();
  arma::vec diag(n);
  int i, j;

  for (i=0; i<n; i++) {
    diag(i) = sqrt(res(i,i));
  }

  for (i = 0; i < n; i++)
    for (j = 0; j < n; j++)
      res(i, j) /= diag(i)*diag(j);

  return(wrap(res));
}

（这可能可以通过犰狳库中的一些专用函数进行优化 - 只是想获得一些计时测量）。

比较这些产量

> XX <- matrix(rnorm(120*1600), ncol=1600)
> microbenchmark::microbenchmark(cosine_similarity(XX), coss(XX), coss2(XX), times=50)
> microbenchmark::microbenchmark(coss(x), coss2(x), cosine_similarity(x), cosine_similarity2(x), coss3(x), times=50)
Unit: milliseconds
                  expr      min       lq     mean   median       uq      max
               coss(x) 173.0975 183.0606 192.8333 187.6082 193.2885 331.9206
              coss2(x) 162.4193 171.3178 183.7533 178.8296 184.9762 319.7934
 cosine_similarity2(x) 169.6075 175.5601 191.4402 181.3405 186.4769 319.8792
 neval cld
    50  a 
    50  b 
    50  a

这确实没那么糟糕。使用 C++ 计算余弦相似度的增益非常小（@ f-privé 的解决方案是最快的），所以我猜你的计时问题是由于你正在将文本从单词转换为数字而不是计算时造成的余弦相似度。如果不了解您的具体代码的更多信息，我们很难为您提供帮助。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

在 R 中快速计算 > 10^6 余弦向量相似度的相关文章

在 R 中导入 csv 文件时如何保留前导零？

当我写一个 csv来自 R 的文件其中我的组名称以前导零值开头前导零被保留但是当我导入 csv前导零被删除组名称被转换为整数当我导入一个组时如何保留组名称中的前导零 csvR 中的文件 Example df lt data fr
R data.table 多个条件连接

我设计了一种解决方案用于从两个单独数据表的多个列中查找值并添加基于新列的值计算多个条件比较代码如下它涉及在计算两个表中的值时使用 data table 和联接但是这些表没有联接在我正在比较的列上因此我怀疑我可能无法获得 da
Node.JS async.parallel 不会等到所有任务完成

我在用异步并行 https github com caolan async并行运行两个函数这些函数请求 RSS 源然后 RSS 提要被解析并添加到我的网页中但由于某种原因async parallel运行回调方法而不等待两个函数完成文
根据 row_number() 过滤 data.frame

更新自从提出这个问题以来 dplyr 已经更新现在按照 OP 的要求执行我正在尝试获取第二行到第七行data frame using dplyr 我正在这样做 require dplyr df lt data frame id 1 1
优化 LATERAL join 中的慢速聚合

在我的 PostgreSQL 9 6 2 数据库中我有一个查询该查询根据一些股票数据构建计算字段表它为表中的每一行计算 1 到 10 年的移动平均窗口并将其用于周期性调整具体来说 CAPE CAPB CAPC CAPS 和 CAP
linq2sql，存储库模式 - 如何从两个或多个表查询数据？

我使用存储库模式和 linq2sql 作为数据访问并拥有例如 ProductsRep 和 CustomersRep 在非常简单的场景中数据库有两个表产品产品 ID 客户 ID 产品名称日期和顾客客户 ID 名字姓氏每个存
通过 r markdown 中的循环创建代码片段

如同如何使用R中的knitr创建一个包含代码块和文本的循环 https stackoverflow com questions 36373630 how to create a loop that includes both a code
R 中使用 `UseMethod()` 与 `inherits()` 来确定对象的类

如果我需要根据 R 对象的类以不同的方式处理它们我可以使用if and else在单个函数内 foo lt function x if inherits x list Foo the list else if inherits x num
R data.table fwrite 到 fread 空间分隔符并清空

我在使用 fread 以作为分隔符和散布的空白值时遇到问题例如这个 dt lt data table 1 5 1 5 1 5 make a simple table dt 3 V2 NA add a blank in the midd
R data.table 1.9.2 关于 setkey 的问题

这似乎是 1 8 10 后引入的一个错误与包含列表的 DT 的 setkey 相关运行下面两个代码来查看问题 library data table dtl lt list dtl 1 lt data table scenario 1 p
R 中的龙卷风图

我正在尝试在 R 中绘制龙卷风图又名敏感性图目标是可视化某些变量增加 10 和减少 10 的效果到目前为止我已经得到这个结果这是我正在使用的代码 Tornado plot data lt matrix c 0 02 0 02 0 0
R 编程常用工具

如果已经以不同的方式问过这个问题我深表歉意但我找不到任何达到我想要的东西我真的是从其他软件包 SPSS 开始接触 R 的当我了解真正可以做什么时我意识到我还需要其他工具这让我想到了我的问题您有哪些用于开发 R 代码的设置我
如何将同一行中以逗号分隔的值拆分到R中的不同行

我有一些数据来自谷歌表格 https forms gle rGQQL3tvA1PrE4dD8我想拆分以逗号分隔的答案 and 复制参与者的 ID 数据如下 gt head data names Q2 Q3 Q4 1 PART 1 fruit
如何自动启动我的 ec2 实例、运行命令然后将其关闭？

我想每周对 redshift postgres 数据库中的数据运行一次机器学习模型我使用以下命令将 R 脚本设置为休息 apiplumbr然后我将其设置为一项任务来管理pm2 我有它所以任务会在ec2实例启动然后继续运行要让 R 脚本
如何定义“f_n-chi-square”函数并使用“uniroot”求置信区间？

I want to get a 95 confidence interval for the following question 我已经写了函数f n在我的 R 代码中我首先使用 Normal 随机采样 100 个样本然后定义函数h
在 C 中复制两个相邻字节的最快方法是什么？

好吧让我们从最明显的解决方案开始 memcpy Ptr const char a b 2 调用库函数的开销相当大编译器有时不会优化它我不会依赖编译器优化但即使 GCC 很聪明如果我将程序移植到带有垃圾编译器的更奇特的平台上我也不
R - 与 SpatialPolygonsDataFrame 对象相交的 SpatialLinesDataFrame 列表的嵌套循环

我有一系列需要完成的步骤SpatialLinesDataFrame 此处的线基于对象与多特征中各个特征的关系SpatialPolygonsDataFrame 多边形对象简而言之每个线列表元素源自单个面要素内部并且可能会也可能不会
从 R 中的方差分析 (glm) 中提取残余偏差

我在 R 中安装了一个 glm 模型并采用了方差分析表我需要提取残余偏差列但它会产生错误以下是代码创建数据 counts lt c 18 17 15 20 10 20 25 13 12 outcome lt gl 3 1 9 t
python 日志记录会刷新每个日志吗？

当我使用标准模块将日志写入文件时logging 每个日志会分别刷新到磁盘吗例如下面的代码会将日志刷新 10 次吗 logging basicConfig level logging DEBUG filename debug log fo
如何绘制大时间序列（数千次给药次数/药物剂量）？

我正在尝试绘制医院中如何开出单一药物的图解在这个虚拟数据库中我在 2017 年 1 月 1 日之后遇到了 1000 名患者绘图的目的是了解该药物的给药模式在接近入院出院或患者住院期间是否更频繁高剂量给药 Get random d

随机推荐

System.InvalidCastException：“无法将类型为“System.Double”的对象转换为类型为“System.Single”。”

为什么我在 obj Add new data 行上收到此错误这是我的代码 SqlCommand com new SqlCommand sp get a con CommandType CommandType StoredProcedur
如何从 Kinesis Analytics (SQL) 中的格式化为字符串的 json 中选择数据

我有一个运动数据流以这种格式提供数据创建时间时间戳有效负载 varchar 6000 一个简化的例子payload元素 version 2 0 data whatever someString observations obs id
python中的滚动窗口

我有一个 numpy 数组我需要一个滚动窗口 1 2 3 4 5 6 子数组长度 3 的预期结果 1 2 3 2 3 4 3 4 5 4 5 6 能否请你帮忙我不是 python 开发者 Python 3 5 If numpy不是必需的
来自字符串的源？ shell中有什么办法吗？

Example bin bash source VARIABLE 是使用curl从远程位置检索值 http example com file cnfg 盲目执行下载绝对不是你想随便做的事情您可以使用以下命令执行变量的内容eval as i
ReferenceError：“驱动器”未定义。（第 16 行，文件“代码”）在 Google 应用程序脚本中

当我尝试使用 Google 驱动器引用时它总是显示 ReferenceError 驱动器未定义第 16 行文件代码我通过转到以下位置解决了此错误资源 gt 高级谷歌服务 gt 启用驱动器 API 注意您需要在 Google
ag-grid 列搜索不适用于对象作为单元格值

我使用 cell renderer 来定义我的单元格如下所示 var cell renderer function params var element var values params value angular forEach va
如何在 postgreSQL 中填充集合

我对 PostgreSQL 很陌生正在从事迁移任务我正在寻找 PostgreSQL 中批量收集到语法的替代方案或者如何在 PostgreSQL 中实现此功能 CREATE FUNCTION test printEmpIds RET
如何在 Eclipse 中重新启动 Google App Engine Java 服务器？

好吧也许我很愚蠢盲目但在文档中它说重建并重新启动服务器但我在任何地方都没有看到执行此操作的按钮或者从任何上下文菜单我在他们的文档中找不到任何解释如何做到这一点的内容如果我只是尝试再次启动应用程序它会生气因为我已经在所需的
是否有解决方法可以在单独的线程中清空事件队列？

我使用了一个单独的线程来调用pygame event get 在 Ubuntu 上使用了很长时间没有任何问题然而MacOS抛出异常 NSInternalInconsistencyException reason nextEventMatc
如何使用提供的范围 maven 发布 Gradle 项目 JAR

给定一个要作为 JAR 发布的 Gradle Web 项目以便它可以成为另一个具有不同发布周期的 Gradle Web 项目的依赖项 The maven publish使用插件 apply plugin war apply plugin
为什么我无法将 ASP.NET Framework 版本显示为 3.5？

有人可以向我确认一下当我的应用程序是用 NET 3 5 编写时这段代码 System Environment Version Major ToString 将产生这个 2 0 50727 1433 我刚刚迁移到 3 5 我迁移的第一个应
由于图标尺寸 (0 x 0)，应用程序提交失败

我正在尝试提交一个仅适用于 iPhone 的应用程序错误显示 iPhone iPod Touch Icon png 图标尺寸 0 x 0 不符合尺寸要求图标文件必须为 57x57 像素采用 png 格式我可以知道为什么会发生这种情况
如何在 Tensorflow.js 中保护（混淆/DRM）经过训练的模型权重？

我正在开发一个基于 React 的 Web 应用程序该应用程序使用 Tensorflow js 在客户端的浏览器中实时运行 AI 模型我从头开始训练了这个人工智能模型我想保护它不被拦截并在其他项目中使用是否有任何保护措施可以做到这一
Ajax不发布大图像的base64数据

我通过 ajax 将图像 base64 数据传递到我的 php 函数但对于大尺寸图像 Ajax 不会发布数据但同样的代码对于小图像来说效果很好 srcdata data image jpeg base64 9j 4SxvRXhpZgAA
Caliburn 元素约定

在尝试学习 GameLibrary 示例应用程序的源代码时我看到了这样一行 ConventionManager AddElementConvention
Grails 过滤器：无法使其工作！

我正在尝试为我的网络应用程序编写一个过滤器我阅读了文档 1 并在我的grails app conf目录 class SecurityFilters def filters someFilter controller action wri
从现场测试模式复制数据

我想从 iPhone 现场测试模式中复制一些数据有什么办法可以做到吗我正在使用这些数据进行测试因此不需要 App Store 批准由于现场测试模式是一个内置应用程序用于收集手机及其网络上的信息因此您实际上无法执行任何操作来与其交
如何配置 Eclipse XML 格式？

我想更改 Eclipse 格式化 XML 文件的方式例如如果我在 pom xml 文件中有如下部分
W3C 验证器无法处理 RDF/XML

我正在尝试描述一个非常基本的地铁火车站地图其中包含站点和时间这个 RDF 到 Turtle 转换器 http rdf translator appspot com 可以解析我的 XML 但 W3C 验证器抛出 Error Your do
在 R 中快速计算 > 10^6 余弦向量相似度

我得到了约 1600 个文档 x 约 120 个单词的文档术语矩阵我想计算所有这些向量之间的余弦相似度但我们正在谈论约 1 300 000 次比较 n n 1 2 我使用了 parallel mclapply 和 8 但它仍然需要很长时

在 R 中快速计算 > 10^6 余弦向量相似度

在 R 中快速计算 > 10^6 余弦向量相似度 的相关文章

随机推荐

热门标签

在 R 中快速计算 > 10^6 余弦向量相似度的相关文章