以容差匹配两个非常非常大的向量（快速！但节省工作空间）

2023-12-05

考虑我有两个向量。一种是参考向量/列表，其中包括所有感兴趣的值和一个可能包含任何可能值的样本向量。现在我想在参考列表中找到我的样本的匹配项，该匹配项具有一定的容差，该容差不是固定的并且取决于向量内的比较值：

matches: abs(((referencelist - sample[i])/sample[i])*10^6)) < 0.5

对两个向量进行舍入是没有选择的！

例如考虑：

referencelist <- read.table(header=TRUE, text="value  name
154.00312  A
154.07685  B
154.21452  C
154.49545  D
156.77310  E
156.83991  F
159.02992  G
159.65553  H
159.93843  I")

sample <- c(154.00315, 159.02991, 154.07688, 156.77312)

所以我得到结果：

    name value      reference
1    A   154.00315  154.00312
2    G   159.02991  159.02992
3    B   154.07688  154.07685
4    E   156.77312  156.77310

我能做的就是使用例如外部函数就像

myDist <- outer(referencelist, sample, FUN=function(x, y) abs(((x - y)/y)*10^6))
matches <- which(myDist < 0.5, arr.ind=TRUE)
data.frame(name = referencelist$name[matches[, 1]], value=sample[matches[, 2]])

或者我可以使用for() loop.

但我的特殊问题是，参考向量有大约 1*10^12 个条目，而我的样本向量有大约 1*10^7 个条目。因此，通过使用 external() 我可以轻松破坏所有工作空间限制并使用for()或被锁链for()循环这将需要几天/几周才能完成。

有谁知道如何在 R 中快速完成此操作，仍然精确，但在计算机上工作消耗最大。 64 GB 内存？

谢谢你的帮助！

最好的祝愿

Using data.table（并从@eddi 复制粘贴二分查找（也称为二分法，参见@John Coleman 的评论））：

library(data.table)

dt <- as.data.table(referencelist)
setattr(dt, "sorted", "value")

tol <- 0.5
dt2 <- dt[J(sample), .(.I, ref = value, name), roll = "nearest", by = .EACHI]
dt2[, diff := abs(ref - value) / value * 1e6]
dt2[diff <= tol]

#       value I      ref name       diff
# 1: 154.0032 1 154.0031    A 0.19480121
# 2: 159.0299 7 159.0299    G 0.06288125
# 3: 154.0769 2 154.0769    B 0.19470799
# 4: 156.7731 5 156.7731    E 0.12757289

我没有对内存使用情况或执行时间进行基准测试，但是data.table享有在这两方面都非常擅长的声誉。如果它对你不起作用，请说出来，也许我会尝试对事物进行基准测试。

注：我的使用data.table是相当天真的。

并且有一个解决方案使用findInterval略低于：https://stackoverflow.com/a/29552922/6197649，但我预计它的性能会更差（再次：需要基准测试）。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

以容差匹配两个非常非常大的向量（快速！但节省工作空间）的相关文章

rpart是自动剪枝吗？

Is rpart自动修剪生成的决策树rpart比具有自动修剪功能的 Oracle Data Mining 生成的级别要多得多否但拟合函数的默认值可能会提前停止分割对于早期的某些定义 See rpart control对于您可
在 Shiny 中叠加两个 ggplot

我有一个非常大的数据集我正在使用 ggplot 在 Shiny 上绘制它我有一个与 x 轴上的值相关联的滑块我想用它对选定的数据子集重新着色并让其余数据保持原样最简单的选择是重新创建整个绘图但由于它是一个大型数据集因此这是一个
matplotlib 中的 R 风格数据轴缓冲区

R 绘图自动设置 x 和 y 限制以在数据和轴之间留出一些空间我想知道 matplotlib 是否有办法自动执行相同的操作如果没有是否有一个好的公式或经验法则来说明 R 如何设置其轴限制在 matplotlib 中您可以通过
R data.table 连接不等式条件

我想使用 data table 包根据多个不等式条件对数据进行子集化 data table 手册中的示例展示了如何使用字符变量执行此操作但不显示数字不等式我还了解了如何使用子集函数来执行此操作但我真的很想利用 data table 二
R闪亮：使用闪亮的JS从数据表中获取信息

我想读出所有列名称以及它们在数据表中显示的顺序由于不同的原因我无法使用 stateSave 等选项我对 JS 没有什么把握但我确信用它可以完成所以我需要你帮助我我尝试过类似的代码片段 datatable data callbac
根据 R 数据框中的名称对列进行平均

我想知道是否有一种有效的方法来获取每组的平均值类似命名的列谁的名字结尾为 1S and 2S ex ex1S ex2S at time 1并取每组的平均值类似命名的列谁的名字结尾为 1C or 2C ex ex1C ex2C at time
如何读取 R 中的每个 .csv 文件并将其导出到单个大文件中

你好我有以下格式的数据 101 20130826T155649 3 1 round 0 10552 180 yellow 12002 1 round 1 19502 150 yellow 22452 1 round 2 28957 130
RStudio 不会通过 rPython 调用加载所有 Python 模块

我从 Bash 和 RStudio 中运行相同的脚本时出现一些意外行为请考虑以下事项我有一个文件夹 rpython 包含两个脚本 test1 R library rPython setwd rpython python load tes
通过 Shiny 中的串扰将 Plotly 与 DT 结合使用

我正在编写一个应用程序来将 csv 文件读取为闪亮的并将散点图与 DT 表链接起来我几乎遵循了 Plotly 网站上 DT 数据表上的示例 https plot ly r datatable https plot ly r datatab
rvest 和 NHL 统计数据的 CSS 选择器问题

我想从 hockey reference com 中抓取数据特别是从以下链接中抓取数据 https www hockey reference com leagues NHL 1991 html https www hockey refer
如何确定 R 包的作者？

如何确定包的作者是谁鉴于我们拥有这个广泛使用的代码库我认为参考我在分析中使用的软件是合适的有没有办法以编程方式检索作者和任何其他相关信息在伪代码中我想执行以下操作 references base 我怎样才能做到这一点为了能够引用
汇总表中各列的字符值比例

在这种数据框中 df lt data frame w1 c A A B C A w2 c C A A C C w3 c C A B C B 我需要计算所有列中字符值的列内比例有趣的是以下代码适用于大型实际数据集但对上述玩具数据会引发错
使用 RDCOMClient 搜索 Outlook 收件箱

我尝试使用 RDCOMClient 在 Outlook 收件箱中搜索电子邮件中的特定主题然后获取附件我在一封电子邮件上进行了这项工作但由于主题包含日期元素我需要搜索成为一个类似的子句但不太清楚这适合我的下面的查询 outlook
使用 pkg:sjPlot 函数创建一个生成部分斜体单元格的数据框

我正在尝试创建一个简单的数据表其中 Coral taxon 列中的属名称为斜体而 spp 列中的属名称为斜体属名后面的部分不大写我尝试使用 expression 函数对 Coral taxon 的每一行进行编码但没有成功 sum
如何在 R 中将字符串解析为层次结构或树

有没有办法将表示组的字符串解析为 R 中的层次结构假设我的小组结构如下 1 1 1 1 1 1 1 1 1 1 1 1 2 1 1 3 1 1 3 1 1 1 3 2 1 1 3 3 1 2 1 2 1 1 2 1 1 1 2 1 2 1
更快的 %in% 运算符

The 快速匹配 https cran r project org web packages fastmatch index html包实现了更快的版本match对于重复匹配例如在循环中 set seed 1 library fastma
如何自动启动我的 ec2 实例、运行命令然后将其关闭？

我想每周对 redshift postgres 数据库中的数据运行一次机器学习模型我使用以下命令将 R 脚本设置为休息 apiplumbr然后我将其设置为一项任务来管理pm2 我有它所以任务会在ec2实例启动然后继续运行要让 R 脚本
如何定义“f_n-chi-square”函数并使用“uniroot”求置信区间？

I want to get a 95 confidence interval for the following question 我已经写了函数f n在我的 R 代码中我首先使用 Normal 随机采样 100 个样本然后定义函数h
当有很多列时，使用 readr::read_csv() 导入数据时覆盖列类型

我正在尝试使用 R 中的 readr read csv 读取 csv 文件我导入的 csv 文件大约有 150 列我只包含示例的前几列我希望将第二列从默认类型我执行 read csv 时为日期覆盖为字符或其他日期格式 GIS Jo
计算互相关函数？

In R 我在用ccf or acf计算成对互相关函数以便我可以找出哪个移位给我带来最大值从它的外观来看 R给我一个标准化的值序列 Python 的 scipy 中是否有类似的东西或者我应该使用fft模块目前我正在这样做 xcor

随机推荐

测试移动网站[关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心以获得指导我们正准备推出一个移动网站
使用 XmlReader.Create(uri) 防止或处理超时

有时我在通过 URL 读取 XML 时会遇到超时异常我可以采取什么措施来防止这种情况发生还是远程服务器有问题下面是我的简单代码 XmlDocument doc new XmlDocument doc Load XmlReader C
带有 mod_wsgi 的 Django 返回 403 错误

我正在尝试将 Django 与 Apache 和 mod wsgi 一起使用使用默认的 Django Web 服务器一切进展顺利但现在在尝试加载页面时出现 403 访问禁止错误我在这里搜索了以前的帖子并阅读了官方文档但那里的解决
是否可以在opengl中使用深度缓冲区渲染3D纹理

我正在尝试实现一些程序并使用这个经典代码 glBindFramebuffer GL FRAMEBUFFER framebuffer 绑定深度缓冲区 glGenRenderbuffers 1 depthbuffer glBindRenderb
jQuery 将 HTML 表转换为 XML

我使用以下 jQuery 代码从远程主机检索 HTML var loadUrl URL html result html ajax load load loadUrl table schedule 这给了我以下 HTML table cla
项目文件存储在 git 存储库“.git”文件夹中的哪里？ [复制]

这个问题在这里已经有答案了我为我的许多项目创建了一个远程存储库因此它是我的目标push的与 git 的理念相反但它充当中央存储库然而当我去 git服务器上的文件夹有以下形式的目录结构 branches hooks applypat
Ember JS 的可重用组件/视图

我正在尝试创建一个可重用的组件或视图用于创建包含在 Bootstrap 控制组中的标签和文本输入该组件需要创建如下内容 div class control group div
如何修复 InvalidStateError：没有远程 SDP 时无法添加 ICE 候选者

我正在创建一个 webRTC 视频聊天当从 Firefox 发起呼叫时显示呼叫者所有活动成员并且接收者使用 chrome 此错误显示未捕获承诺 DOMException 无法在 RTCPeerConnection 上执行 addIc
在 Express 中更新 cookie 会话，但未在浏览器中注册

我已经设置了一个工作登录测试如下所示 var express require express var fs require fs var http require http var path require path var routes
WCF 服务移至 SSL 后，PrincipalPermission.Demand() 失败

我的 Silverlight WCF 应用程序在每个服务方法中使用 PrimaryPermission 来确保用户经过身份验证当我将所有内容配置为 HTTP 时这一切都很好但是一旦我将服务端点绑定配置为支持 HTTPS SSL 当我
热图上的特定异常值 - matplotlib

我正在生成一个带有固定离群值数据的热图我需要将这些离群值显示为我使用的热 cmap 调色板中的颜色通过使用 cmap set bad green 和 np ma masked values data outlier 我得到了一个看起来
TypeError: to_excel() 缺少 1 个必需的位置参数 - 尽管使用 excel writer

我在使用 pandas 保存到 Excel 时遇到问题并出现以下错误 File C Users Colleen Documents Non online code kit names py line 36 in save sheet na
azure数据工厂：如何将文件夹的所有文件合并到一个文件中

我需要创建一个大文件通过合并分散在 Azure Blob 存储中包含的多个子文件夹中的多个文件还需要进行转换每个文件包含单个元素的 JSON 数组因此最终文件将包含一个JSON 元素数组最终目的是在 Hadoop 和 MapRed
Ansible 具有“替代目录布局”并使用保管库

我正在尝试使用替代目录布局和里面的 ansible vaults 但是当我运行我的剧本时保管库加密的变量无法使用该目录结构解析那么我做错了什么我通过以下方式执行 ansible playbook i inventories inv h
使用 SASS 和断点（响应）合并媒体查询

使用 SASS 和 Respond To 断点会生成一个包含多个媒体查询未合并的 css 文件没什么大不了的但是在IE8中使用css3 mediaqueries js 会导致IE8崩溃 css3 mediaqueries js
使用 Klepto 进行 Python 保存和编辑

好吧我的问题非常具体我提前道歉我是一名新程序员尝试从头开始自己开发这是相对成功的只是我有最后一个问题我可以看到您可以在此处查看我的完整代码 Project 所以我遇到的问题与我保存文件的方式有关我第一次尝试腌制它因为它是
使用 AJAX 请求时是否还需要 Form 元素？

这可能是一个愚蠢的问题但对我来说知道我们是否真的仍然需要将输入元素包装在 a 旁边确实很重要
如何将元组列表转换为 pandas 数据框，以便每个元组的第一个值代表一列？

我想转换我的元组列表以便每个元组的第一个元素代表 2 个不同的列每个元组的第二个元素应表示与 pandas df 中的列相对应的值我当前的元组列表 list tuples G 9 8 B 4 2 G 9 6 B 2 3 G 7 6 B
Powershell 排序对象名称与数字不正确

我试图在文件夹中查找 sql 文件并根据上次写入时间过滤它们根据上次写入时间我得到了 4 个文件作为输出 TestScript10 sql TestScript5 sql TestScript6 sql TestScript7 sql
以容差匹配两个非常非常大的向量（快速！但节省工作空间）

考虑我有两个向量一种是参考向量列表其中包括所有感兴趣的值和一个可能包含任何可能值的样本向量现在我想在参考列表中找到我的样本的匹配项该匹配项具有一定的容差该容差不是固定的并且取决于向量内的比较值 matches abs refer

以容差匹配两个非常非常大的向量（快速！但节省工作空间）

以容差匹配两个非常非常大的向量（快速！但节省工作空间） 的相关文章

随机推荐

热门标签

以容差匹配两个非常非常大的向量（快速！但节省工作空间）的相关文章