R中的快速并行二分距离计算

2024-01-29

使用并行 Rcpp 后端计算 R 中二分距离最快的方法是什么？

parallelDist是一个很棒的包，带有 cpp 后端并支持多线程，但不支持二分距离计算（据我所知）。

Using parallelDist()用于二分距离矩阵计算。除了 m1:m2 之外，这还涉及计算 m1:m1 和 m2:m2 ——效率非常低。

library(parallelDist)

bipartiteDist <- function(matrix1,matrix2){
  matrix12 <- rbind(matrix1,matrix2)
  d <- parallelDist(matrix12)
  d <- as.matrix(d)[(1:nrow(matrix1)),((nrow(matrix1)+1):(nrow(matrix1)*2))]
  d
}

matrix1 <- abs(matrix(rnorm(1000),10,100000))
matrix2 <- abs(matrix(rnorm(1000),10,100000))

dist <- bipartiteDist(matrix1, matrix2)

当有超过 3 个核心可用时，此方法比 pDist 或纯 R 实现更快。

pdist非常适合计算二分距离，但不支持多线程。

有并行二分距离计算的快速实现吗？

The wordspace dist.matrix() https://rdrr.io/cran/wordspace/man/dist_matrix.html函数支持二分距离的并行计算。

标杆管理wordspace反对parallelDist

matrix1 <- abs(matrix(rnorm(1000),100,100000))
matrix2 <- abs(matrix(rnorm(1000),100,100000))

library(rbenchmark)
library(parallelDist)
library(wordspace)

bipartiteDist_parallelDist <- function(matrix1,matrix2){
  matrix12 <- rbind(matrix1,matrix2)
  d <- parallelDist(matrix12, method = "euclidean")
  d <- as.matrix(d)[(1:nrow(matrix1)),((nrow(matrix1)+1):(nrow(matrix1)*2))]
  d
}

bipartiteDist_wordspace <- function(matrix1,matrix2){
  wordspace.openmp(threads = wordspace.openmp()$max)
  dist.matrix(matrix1,matrix2, byrow = TRUE, method = "euclidean", convert = FALSE)
}

benchmark("parallelDist" = {
            bd1 <- bipartiteDist_parallelDist(matrix1,matrix2)
          },
          "wordspace" = {
            bd2 <- bipartiteDist_wordspace(matrix1,matrix2)
          },
          replications = 1,
          columns = c("test", "replications", "elapsed",
                      "relative", "user.self", "sys.self"))

plot(bd1,bd2) # yes, both methods give near-identical results

基准测试结果：

          test replications elapsed relative user.self sys.self
1 parallelDist            1   2.120   12.184   126.145    0.523
2    wordspace            1   0.174    1.000     3.749    0.252

我用了80个线程。

进一步提高速度的框架

作者是wordspace承认强调低内存负载而不是速度，因此额外的速度增益是可能的（source https://r.789695.n4.nabble.com/dist-function-in-R-is-very-slow-td4738317.html).

例如，以下是欧几里得距离的一般框架：

bipartiteDist3 <- function(matrix1,matrix2){
  m1tm2 <- tcrossprod(matrix1,matrix2)
  sq1 <- rowSums(matrix1^2)
  sq2 <- rowSums(matrix2^2)
  out0 <- outer(sq1, sq2, "+") - 2 * m1tm2
  sqrt(out0)
}

我对针对稀疏矩阵优化的并行解决方案非常感兴趣。据我所知，wordspace不针对稀疏性进行优化。例如，tcrossprod、rowSums 和外部函数等价物有可并行的稀疏矩阵实现。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

r

Optimization

Distance

rcpp

R中的快速并行二分距离计算的相关文章

如何绘制每条线之间具有特定距离的图形

实际上我尝试绘制一个图形但它将所有列线放在一起并显示因此它不具有代表性我尝试制作模拟数据并向您展示我如何绘制它并向您展示我想要的内容我不知道如何制作像下面所示的示例的数据但我在这里做了什么 set seed 1 M lt
R 编程常用工具

如果已经以不同的方式问过这个问题我深表歉意但我找不到任何达到我想要的东西我真的是从其他软件包 SPSS 开始接触 R 的当我了解真正可以做什么时我意识到我还需要其他工具这让我想到了我的问题您有哪些用于开发 R 代码的设置我
在 igraph 中为社区分配颜色

我在 igraph 中使用 fastgreedy community 检测算法在 R 中生成社区代码返回 12 个社区但是在绘图时很难识别它们因为它返回的图的颜色数量有限我怎样才能用十二种不同的颜色绘制这个图表 l2 lt layo
手动设置scale_fill_distiller()的比例

我正在尝试制作一系列图表进行比较举例来说我想使用iris数据集来制作这样的图其中我已过滤以仅查看 setosa 物种 library ggplot2 library dplyr iris gt filter Species setos
按特定样本前缀对列名称向量进行子集化

假设我有一个如下所示的数据框 ca01 lt c 1 10 ca02 lt c 2 11 ca03 lt c 3 12 stuff 1 lt rep test 10 other lt rep 9 10 data lt data frame
什么是大O表示法？你用它吗？ [复制]

这个问题在这里已经有答案了什么是大O表示法你用它吗我想我错过了这门大学课程 D 有人使用过它并给出一些现实生活中使用它的例子吗也可以看看八岁孩子的大O https stackoverflow com questions 10716
如何绘制大时间序列（数千次给药次数/药物剂量）？

我正在尝试绘制医院中如何开出单一药物的图解在这个虚拟数据库中我在 2017 年 1 月 1 日之后遇到了 1000 名患者绘图的目的是了解该药物的给药模式在接近入院出院或患者住院期间是否更频繁高剂量给药 Get random d
ubuntu中R的igraph包的安装

我使用以下命令在 ubuntu 中安装 R 的 igraph 包 install packages igraph 但我收到一条错误消息警告无法访问存储库的索引 http ftp iitm ac in cran src contrib h
融化R中的下半矩阵

如何融化下半三角形加对角矩阵 11 NA NA NA NA 12 22 NA NA NA 13 23 33 NA NA 14 24 34 44 NA 15 25 35 45 55 A lt t matrix c 11 NA NA NA NA
将第 N 行上的 NA 行插入 data.frames 列表，其中 N 来自列表

经过几个小时后我发现自己无法解决以下问题我有一个数据框列表我想分别向每个 DF 插入而不是替换一行或多行 NA 始终至少一行要插入的 NA 数量存储在单独的列表中为了说明这一点我有以下两个列表 list of datafra
使用字符串中的变量名称访问变量值，R

Intro 一个数据集有大量的age year变量 age 1990 age 1991 etc 我有一个字符串值数组length age years 表示这些变量使得age years 1 回报 age 1990 etc Need 我想搜
从 n,k 维矩阵数组中减去 n,k 维矩阵

如果我有一个数组A A lt array 0 c 4 3 5 for i in 1 5 set seed i A i lt matrix rnorm 12 4 3 如果我有矩阵 B set seed 6 B lt matrix rnorm
如何在 Caret 中绘制随机森林（护林员）树

我生成了如下所示的随机森林树并尝试绘制它但出现错误我在哪里犯了错误我怎样才能以正确的方式绘制它 Actmodel lt train Activity Section Author data CB1 method ranger trC
如何在 R 中合并同名列表中的数据框？

我有一个包含很多数据框的列表如果它们具有相同的名称我想合并它们即合并所有具有相同名称 a 和 b 的数据框像这样 a lt aaaaa b lt bbbbb c lt ccccc g lt list df1 lt data fram
Rust 编程竞赛中最快的惯用 I/O 例程？

我的问题已部分得到解答因此我根据从评论和其他实验中学到的知识对其进行了修改总之我想要一个用于编程竞赛的快速 I O 例程其中使用单个文件解决问题无需外部包它应该从一个以空格分隔的标记序列中读取BufRead 标准输入或文件标记
在 R 传单中添加不透明度滑块

如何在 R leaflet 应用程序中添加滑块来控制特定图层的不透明度对于这个应用程序我不想使用闪亮这里建议在 R 传单应用程序中添加滑块 https stackoverflow com questions 37682619 add
R中的重叠矩阵

我有以下数据框 id channel 1 a 1 b 1 c 2 a 2 c 3 a 我想创建并重叠矩阵它基本上是一个方阵行和列标签为 a b c 表中的每个条目显示每个通道共有多少个 id 例如在上面的例子中矩阵看起来像 a b
Quantmod 的简单功能不再起作用

我明天要交论文我收到了一条关于 quantmod 的非常奇怪的错误消息这是我在过去几周使用这个包时从未遇到过的我无法导入特定于道琼斯指数 DJI 的数据我收到以下错误消息 getSymbols DJI src yahoo from
使用officer R导出时如何提高ggplots的分辨率

我想将图表导出到 PPT 并使用Officer 包来实现相同的目的但是图表的默认分辨率较低我想更改它我目前正在使用以下电话 ph with gg p1 type chart res 1200 其中 p1 是 ggplot 对象运行
绘制 Cox 回归的 Kaplan-Meier 图

我使用 R 中的以下代码设置了一个 Cox 比例风险模型来预测死亡率添加协变量 A B 和 C 只是为了避免混淆即年龄性别种族但我们真正对预测变量 X 感兴趣 X 是一个连续变量 cox model lt coxph Surv t

随机推荐

如何在 Android 上显示来自 Base64 字符串的 PDF？

我正在开发一个 Android 应用程序我将 PDF 数据作为 blob 类型保存在 MYSQL 数据库中我正在将 base64 发送到 Android 应用程序如何在 Android 应用程序中显示 pdf 当您拥有 yourBas
如何构建维基百科类别层次结构？

我正在尝试构建维基百科文章及其类别的树形图我需要做什么才能做到这一点从这个网站 http dumps wikimedia org enwiki latest http dumps wikimedia org enwiki latest
返回表达式中不存在最佳通用类型

当我使用收藏2 https github com aldeed meteor collection2在 angular2 meteor 项目中这些代码来自demo https github com aldeed meteor collec
MVC-3 和 Html.Serialize（ASP.NET 4、MVC3）

目前正在从事 MVC 3 的项目尝试将以下代码放入我的视图中但 Visual Studio 告诉我它找不到 Serialize 方法 Html Serialize User Model ex using Html BeginForm H
Inno Setup：/verysilent 安装后如何自动运行程序？

如何在执行后自动运行我的程序 verysilent安装我可以在正常安装后自动运行我的程序DisableFinishedPage yes in the Setup 部分禁用完成页面并在安装后立即运行程序无需用户干预但是如果我使用 ve
向 OpenXml 中的表格或图形添加标题

我正在尝试在 OpenXml 中创建此结构 p p table table Table 1 Some Text 1
Pyaudio：如何压缩音频流

我目前正在 python 中开发一个 VOIP 工具作为客户端服务器工作如下所示 CHUNK 1024 p pyaudio PyAudio stream p open format pyaudio paInt16 channels 1
交响乐团 |表格 |自引用 CollectionType 字段 - 错误：内存不足

首先我们使用的是交响乐3 4 我们有一个自引用字段 children在实体上Category 因此一个类别可以有类别子项而这些类别子项可以有类别子项依此类推 class Category ORM Column type string
从文件中删除注释并保留整数

我正在尝试从我的 txt 文件中删除注释我的文本文件如下所示 Sunspot data collected by Robin McQuinn from http sidc oma be html sunspot html Month 17
Swift 5.5 async let - 错误：表达式为“async”但未标记为“await”

WWDC21介绍雨燕5 5 with 异步等待继探索 Swift 中的结构化并发 https developer apple com wwdc21 10134 and 在 Swift 中认识 async await https deve
C# 如何判断ArrayList是否包含具有某种属性的对象

我有一个自定义类的对象的 ArrayList 我想知道 ArrayList 是否包含具有某些属性的对象我不关心对象只要有的话是的我可以用 foreach 循环来做到这一点但我想知道是否有更优雅的方法来做到这一点感谢您的建议好吧
从代码构建 Visual Studio 解决方案

我正在编写一个控制台应用程序以从 tfs 服务器获取解决方案构建它并在 iis 上发布但我一直在构建我找到了这段代码它的作用就像一个魅力 public static void BuildProject string solutio
调试 ASP.NET 应用程序时，如何在 Firefox 关闭时结束调试会话？

我将把 Mozilla Firefox 设置为 net 应用程序的默认 Web 浏览器问题是即使我关闭浏览器窗口应用程序仍保持运行模式和IE不太一样由于某些原因我必须使用 Fire Fox 而不是 IE 当 Firefox 窗口关闭
Maven archetype 插件不允许 archetype-resources 中的 .resources 通过

我怎样才能制作这样的资源 gitignore成为最终项目的一部分创建原型archetype resources gitignore mvn install mvn archetype generate 生成的项目不包含 gitignore
scrapy项目加载器返回列表不是单个值

我正在使用 scrapy 0 20 我想使用项目加载器这是我的代码 l XPathItemLoader item MyItemClass response response l add value url response url l a
无法从我的协议类调用委托方法

我在一类中有一个协议 protocol DataStorageManager void saveFile end interface DataManager NSObject id
Boot 3 升级后错误响应正文发生更改

我的项目中有以下控制器端点 GetMapping value id public FooDto findOne PathVariable Long id Foo model fooService findById id orElseThro
ImageFont 检测丢失的字形（Python Pillow）[重复]

这个问题在这里已经有答案了这是一个简短的example http pillow readthedocs io en 3 1 x reference ImageFont html from PIL import ImageFont Imag
如何处理 Node.js 中的“read ETIMEDOUT”？

我有一个使用 Node js 的发布订阅模型将数据从一个客户端传输到另一个客户端此外服务器还记录收到的所有内容并将其发送给新客户端但是某些数据在传输时损坏并且出现如下错误 Error with socket Error writ
R中的快速并行二分距离计算

使用并行 Rcpp 后端计算 R 中二分距离最快的方法是什么 parallelDist是一个很棒的包带有 cpp 后端并支持多线程但不支持二分距离计算据我所知 Using parallelDist 用于二分距离矩阵计算除了 m1 m

R中的快速并行二分距离计算

R中的快速并行二分距离计算 的相关文章

随机推荐

热门标签

R中的快速并行二分距离计算的相关文章