如何计算大型数据帧的欧几里德距离（并仅保存摘要）

2023-12-06

我编写了一个简短的“for”循环来查找数据帧中每一行与所有其他行之间的最小欧几里德距离（并记录哪一行最接近）。理论上，这可以避免与尝试计算非常大的矩阵的距离度量相关的错误。然而，虽然内存中保存的内容不多，但对于大型矩阵来说速度非常慢（我的约 150K 行的用例仍在运行）。

我想知道是否有人可以在使用 apply 或类似功能矢量化我的函数方面为我提供建议或指出正确的方向。对于看似简单的问题表示歉意，但我仍在努力以矢量化的方式思考。

预先感谢（以及您的耐心）。

require(proxy)

df<-data.frame(matrix(runif(10*10),nrow=10,ncol=10), row.names=paste("site",seq(1:10)))

min.dist<-function(df) {  
 #df for results
 all.min.dist<-data.frame()
 #set up for loop 
 for(k in 1:nrow(df)) {
     #calcuate dissimilarity between each row and all other rows
     df.dist<-dist(df[k,],df[-k,])
     # find minimum distance
     min.dist<-min(df.dist)
     # get rowname for minimum distance (id of nearest point)
     closest.row<-row.names(df)[-k][which.min(df.dist)]
     #combine outputs
     all.min.dist<-rbind(all.min.dist,data.frame(orig_row=row.names(df)[k],
     dist=min.dist, closest_row=closest.row))
    }
 #return results
 return(all.min.dist)
                        } 
 #example
 min.dist(df)

这应该是一个好的开始。它使用快速矩阵运算并避免不断增长的对象构造，这两者都在评论中建议。

min.dist <- function(df) {

  which.closest <- function(k, df) {
    d <- colSums((df[, -k] - df[, k]) ^ 2)
    m <- which.min(d)
    data.frame(orig_row    = row.names(df)[k],
               dist        = sqrt(d[m]),
               closest_row = row.names(df)[-k][m])
  }

  do.call(rbind, lapply(1:nrow(df), which.closest, t(as.matrix(df))))
}

如果这仍然太慢，作为建议的改进，您可以计算距离k一次指向一个点而不是单个点。的大小k需要在速度和内存使用之间进行折衷。

Edit:另请阅读https://stackoverflow.com/a/16670220/1201032

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

r

forloop

Distance

vectorization

如何计算大型数据帧的欧几里德距离（并仅保存摘要）的相关文章

为什么表达式“1”==1 的计算结果为 TRUE？ [复制]

这个问题在这里已经有答案了 1 是字符值其他1是数字甚至当我尝试在下面执行时它给了我 TRUE as character 0 as numeric 0 谁能帮助我理解为什么来自help 如果两个参数是不同类型的原子向量则其中一
正则表达式在 R 中同时多次包含字母/特殊字符时删除单词

我想删除那些单词中字母特殊字符的数量同时出现两次以上的单词例如输入就像 Google in theee lland of whhhat c c and e 输出应该是 Google in lland of c c and x lt G
挑战：优化取消列出[简单]

因为 SO 最近有点慢所以我发布了一个简单的问题如果大鱼们能在这场比赛中留在替补席上并给新秀们一个回应的机会我将不胜感激有时我们的对象具有大量的大列表元素向量您如何将这个对象取消列出到单个向量中证明你的方法比unlist
当前一个值也在 apply 中计算时，Pandas 有没有办法使用 dataframe.apply 中的前一行值？

我有以下数据框 Index Date A B C D 2015 01 31 10 10 Nan 10 2015 02 01 2 3 Nan 22 2015 02 02 10 60 Nan 280 2015 02 03 10 100 Nan
R闪亮：基于checkboxgroupinput的子集数据

我想根据复选框输入动态选择的列对数据进行子集有什么方法可以使我的输入文件在我的代码中全局可用以便可以方便地进行进一步的操作以下是我的代码 Server R library shiny shinyServer function inpu
为什么在 R 中绘图时，hovertemplate 无法正确显示某些数据点

mydat2 lt data frame subject c math english chemistry score c 80 50 65 class c A B A count c 50 60 70 library plotly plo
如何修改反应链以便最后修改的对象控制其他链接的对象？

新注释 1 最终解决的代码发布在最底部反映了 ismirsehregal 于 2021 年 12 月 3 日的解决方案以及一些标记为 ADDED 和 MODIFIED 的小调整 ADD 是为了解决我在矩阵 2 添加值后从矩阵 1 中删除
如何使用 Rcpp 将 C 结构从 C 库公开到 R

我正在尝试将 C 结构从 C 库公开到 R 中例如 struct A int flag 库提供 API 来构造和销毁是很常见的A A initA void freeA A a 感谢RCPP MODULE 很容易暴露它而不考虑析构函数 in
Lua 上的 For 循环

我的作业是如何执行 for 循环我已经从数字上弄清楚了但无法从名称上弄清楚我想创建一个 for 循环来运行名称列表以下是我到目前为止所拥有的 names John Joe Steve for names 1 3 do print n
“条件长度 > 1 并且仅使用第一个元素”错误

我对 f 语句有疑问因为它返回给我以下错误消息条件长度 gt 1 并且仅使用第一个元素我有一个名为 data summary 的数据框我想创建两个新变量vol up and vol down取决于我的数据框的其他变量这是我的脚本代
使用 alpha 通道叠加两个 ggplot2 stat_密度2d 图

我想叠加两个ggplot2使用 alpha 通道进行绘图结果图像显示两个数据集这是我的测试数据 data read table text P1 1 0 4 nP2 0 0 2 nP3 2 1 8 nP4 2 2 6 nP5 0 5 2
从 r 中的多个列表创建二进制（存在/不存在）数据矩阵

我有一系列不同长度的单独变量列表字符串我想将它们组合成一个数据帧以形成存在 1 不存在 0 矩阵鉴于它们的长度不同我什至不知道如何创建初始数据框这是我的例子 data1 lt c a b c d e f data2 lt c e
根据 R 中的另一个变量过滤簇中的 id

我有 100 名患者的数据每个患者都有 7 天 1 到 7 的值如何仅在第一天根据另一个变量选择患者 df lt data frame id c 1 1 1 2 2 2 day c 1 2 3 1 2 3 RRT c 0 1 0 1 0
从数据帧创建 sf 多边形

我有一个包含一组多边形坐标的数据框这就是我将其转换为spatialPolygons 包sp 的方法 my df lt data frame Plot c A A A A A B B B B B Corner c SW NW NE SE S
在 R 中运行 glmnet 包，出现错误“缺少 TRUE/FALSE 需要的值”，可能是由于缺少值？

我正在尝试使用glmnet来自glmnet运行 LASSO 回归的包我正在使用以下命令 library glmnet glmnet a b family binomial alpha 1 我收到错误 gt Error in if all
可以使用部分名称访问列表成员吗？这是一个功能吗？

考虑这个 R 代码 gt l list key 1 gt l k 1 1 gt l ke 1 1 gt l k NULL gt names l 1 key 这是否意味着您可以使用以下方式访问列表成员及其部分名称当我在一次令人沮丧的错误搜
使用条件求 R 中的累积和

我需要创建一个新变量其中包含每个 ID 过去三年金额的总和如果没有三年的数据则应显示 NA 举个例子 ID YEAR AMOUNT 1 2010 5 1 2011 2 1 2012 4 1 2013 1 1 2014 3 2 2013
将值排列在特定组内

我试图在嵌套数据帧的精确组内按降序排列值我的输入数据如下所示我有两个分组变量 group1 and group2 和三个值即id value2 value3 library tidyverse set seed 1234 df lt
R 语言 NaN + NA 行为

我有一个关于 R 中算术行为的问题看下面这段代码 gt NaN NA 1 NaN gt gt gt NaN as integer NA gt NA 所以我很困惑这两个添加给出了不同的结果有谁知道这是否是真正想要的行为还是只是某种错误
将数据帧单列中的值向上移动

使用这样的示例数据 example data frame x c 1 2 3 4 5 6 7 8 y c 1 2 3 4 5 6 7 8 z c 1 2 3 4 5 6 7 8 看起来像这样 x y z 1 1 1 1 2 2 2 2 3

随机推荐

从内存中运行可执行文件

我正在尝试直接从该可执行文件的 byte 表示形式作为 C 中的资源运行该可执行文件所以基本上我想直接运行PE的一个字节而不接触硬盘我为此使用的代码曾经有效但现在不再有效该代码创建一个具有冻结主线程的进程更改整个进程数据最后恢
设置文本视图+编辑文本+按钮

我想在同一行中放置一个 TextView Edittext 和一个按钮但我遇到的问题是该按钮未正确向左对齐并且在小屏幕中 edittext 被整个填充 Small screen Big Screen 我的编码如下
另一个 JNI、C++、DLL、UnsatisfiedLinkError

我已经找了两天了没有任何解决方案可以帮助我所以我们再次开始如何修复 JNI 中的 UnsatisfiedLinkError 这是我的java代码 package org lingenio util import java util p
typescript 静态类型检查 ES 模块导出

是一种静态类型检查 es 模块导出的方法吗作为code描述如下 file ts export const x 4 export const y whatever export const foo gt 2 the interface de
用于操作的 MVC [HttpPost/HttpGet]

我正在使用 MVC C 有人可以举例说明为什么要使用 HttpPost HttpGet 对于一个动作一个活性物如何能两者兼得实际用途是什么假设你有一个Login为用户提供登录屏幕的操作然后在用户提交表单后接收回用户名和密码 publ
Hyperledger Fabric 1.4：如何测试和验证 Fabric Node SDK 中的 registerChaincodeEvent 函数？

我目前在添加资产时从我的链代码发出一个事件 async addRequestNode ctx sampleAssetId sampleData console info Adding Sample Asset await ctx stub
静态变量与单例变量

我正在制作 Java REST 应用程序我想知道我应该如何实现我的服务我应该为整个应用程序使用静态服务变量还是像 Spring MVC 中那样将服务作为单例单例对象和在应用过程中只初始化一次对象有什么区别吗如果您想要一些实用方法或常
blazor 托管模板项目在发布应用程序后不起作用

我从 dotnet CLI 创建一个新的 blazor 托管项目名为 foo dotnet new blazorwasm hosted 我运行应用程序 dotnet run c Release 请求 https localhost 500
当焦点文本输入反应本机时，滚动视图无法滚动

我在 ScrollView 中有一个 TextInput 当 TextInput 获得焦点时滚动不起作用此问题仅影响 Android setting
使用多个 MergedDictionaries 时，为什么样式在 wpf 运行时不起作用？

如果我多次使用 MergedDictionaries 来定义样式它在运行时不起作用但在 VS2010 的 WPF 设计器中它可以起作用如果在运行时使用代码加载 MergedDictionaries 它也可以工作为什么会发生这种情况
在 Windows 上构建 Xcode 项目

我需要在 Windows 上编译 Xcode 项目我不需要制作一个因为它是自动生成的我是 iOS 开发新手我不打算提交到 App Store 或支付 Apple 100 美元来签名我只是想构建一个可以安装在我的越狱设备上的 IPA
当用户移动地图时捕获bounds_changed事件，但不捕获setCenter方法

我想在用户移动地图更改缩放时监听 bounds changed 事件但我不希望当我的程序调用 setCenter 或 setZoom 方法时触发它所以我尝试在设置中心之前删除事件然后再次添加它但是这没有用我的活动仍在被解雇 v
VS 2010：状态栏上的++文件符号是什么？

我正在尝试在我的 Win 7 Pro 开发盒上的 XP 虚拟机中运行 VS 2010 它基本上可以工作但是当在这种环境中实际编辑代码时我的编辑能力会不断停止并在很长一段时间内断断续续例如每 50 秒的运行环境就会暂停 20 秒这台
如何使用 JQuery 重定向，加载另一个页面但在请求中发送一些 POST 参数？

如何使用 JQuery DOJO 或纯 JavaScript 进行重定向加载另一个页面但在请求中发送一些 POST 参数这应该有效但我还没有测试过 function postData url data var form
什么是C本地函数声明机制？

gcc 中似乎允许本地函数声明我发现了对此的讨论局部函数声明有什么用处吗但是我的问题是 ISO C 标准允许吗如果是的话如何解释以下令人费解的现象 int main void int f void f void g void g
Hashtable 中最大值的键

嗨我有以下对象 Hashtable
Java应用程序使用系统中的最大可用内存

有 Xmx 和 max heap size jnlp 选项来设置 java 应用程序可以使用的最大内存如果未指定这些选项则仅允许应用程序使用系统中少量的可用物理内存这就是人们使用 Xmx 来允许应用程序使用更多内存的原因但这对我来说
如何在 Windows 批处理文件中回显 >>someText

我想将确切的文本 gt gt someText 打印到控制台 I try echo abb gt gt cdd eee 但这不会打印任何内容并创建文件cdd里面有 abb 文本我应该使用什么语法echo为了那个原因你必须转义特殊字符
ELB 使用带有自签名证书的 HTTPS 到后端服务器

我希望设置一个使用 HTTPS 与后端服务器通信的 ELB 我正在尝试使用单个后端服务器设置概念验证但似乎无法让 ELB 与服务器通信我几乎可以肯定这是一个证书问题因为任何没有 SSL 的设置都可以完美运行我该如何设置我尝试了多个
如何计算大型数据帧的欧几里德距离（并仅保存摘要）

我编写了一个简短的 for 循环来查找数据帧中每一行与所有其他行之间的最小欧几里德距离并记录哪一行最接近理论上这可以避免与尝试计算非常大的矩阵的距离度量相关的错误然而虽然内存中保存的内容不多但对于大型矩阵来说速度非常慢我的约

如何计算大型数据帧的欧几里德距离（并仅保存摘要）

如何计算大型数据帧的欧几里德距离（并仅保存摘要） 的相关文章

随机推荐

热门标签

如何计算大型数据帧的欧几里德距离（并仅保存摘要）的相关文章