有效地在多个维度上查找邻居并根据邻近度计算值的总和

2024-04-02

我的任务是找到中心元素可变距离内所有元素的总价值。这些元素使用 3 个维度（我的数据中的列）进行排列。每个元素在给定 3 个维度的情况下都有一个唯一的位置（并且有一个唯一的 id）。

我有一个可以完成我想要的工作的版本，但是它非常慢。我正在使用 itertuples，使用子集数据帧 apply(np.isclose) 查找每个元组的值，然后使用 .at 设置值（请参见下面的代码）。

问题不在于我的代码的功能，而在于可扩展性。由于我想设置一个可变距离来测量，并且我想计算每一行的这个值，所以最终会迭代 nrows x ndistances，目前每次迭代需要 1.7 秒（我的数据有 >25,000 行，我估计大约 12 小时）根据我尝试的每个距离）。

import pandas as pd
import numpy as np

数据结构示例：

df = pd.DataFrame({'id':[1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19], 
                          'x':[-2,-2,-2,-1,-1,-1,-1,0,0,0,0,0,1,1,1,1,2,2,2], 
                          'y':[2,1,0,2,1,0,-1,2,1,0,-1,-2,1,0,-1,-2,0,-1,-2], 
                          'z':[0,1,2,-1,0,1,2,-2,-1,0,1,2,-2,-1,0,1,-2,-1,0], 
                          'val':[0,0,0,1,0,0,6,3,7,11,0,0,14,18,10,4,20,15,2]})
df.set_index('id', inplace=True)
# The 'val' column can have any non-negative whole number, I've just picked some randomly.

到目前为止的“工作”代码：

n = 0  #Initial distance
while n < 3:  #This part allows me to set my distance range
    df['n{0}'.format(n)] = np.nan  #create a column for the new values
    for row in df.itertuples():
        valsum = df[(df['x'].apply(np.isclose, b=row.x, atol=n)) & 
                    (df['y'].apply(np.isclose, b=row.y, atol=n)) & 
                    (df['z'].apply(np.isclose, b=row.z, atol=n))].val.sum()
        df.at[row.Index, 'n{0}'.format(n)] = valsum
    n += 1

当前/所需输出：

    x   y   z   val n0  n1  n2
id                          
1   -2  2   0   0   0   1   22
2   -2  1   1   0   0   0   25
3   -2  0   2   0   0   6   17
4   -1  2   -1  1   1   11  54
5   -1  1   0   0   0   19  70
6   -1  0   1   0   0   17  57
7   -1  -1  2   6   6   6   31
8   0   2   -2  3   3   25  74
9   0   1   -1  7   7   54  99
10  0   0   0   11  11  46  111
11  0   -1  1   0   0   31  73
12  0   -2  2   0   0   10  33
13  1   1   -2  14  14  62  99
14  1   0   -1  18  18  95  105
15  1   -1  0   10  10  60  107
16  1   -2  1   4   4   16  66
17  2   0   -2  20  20  67  100
18  2   -1  -1  15  15  65  101
19  2   -2  0   2   2   31  80

我知道“n0”列等于“val”列，因为搜索距离为 0，但我希望能够显示我正在寻找的内容。 val 列中所有项目的总和为 111，这与 (x,y,z) = (0,0,0) 时相同。这是因为 (0,0,0) 是本例中数据的中心，因此距离为 2 会捕获所有元素。我想在距离带宽（例如 5-10）内执行此操作。

我的最终问题是：我怎样才能更快/更有效地做到这一点？

在 k 维空间内查找最近邻居是 k-d 树数据结构的经典案例（维基百科 https://en.wikipedia.org/wiki/K-d_tree）。 Scikit-learn 有一个灵活的实现（docs https://scikit-learn.org/stable/modules/generated/sklearn.neighbors.KDTree.html）我在下面使用它，因为你的问题中使用的条件逻辑似乎定义了切比雪夫距离度量（维基百科 https://en.wikipedia.org/wiki/Chebyshev_distance），scikit-learn 本身支持。 SciPy 的cKDTree (docs https://docs.scipy.org/doc/scipy/reference/generated/scipy.spatial.cKDTree.html, C++源代码 https://github.com/scipy/scipy/tree/master/scipy/spatial/ckdtree/src) 仅支持欧几里德 (L2) 距离度量，但已针对它进行了优化，因此可能会更快。

# Setup
df = pd.DataFrame({'id':[1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19], 
                   'x':[-2,-2,-2,-1,-1,-1,-1,0,0,0,0,0,1,1,1,1,2,2,2], 
                   'y':[2,1,0,2,1,0,-1,2,1,0,-1,-2,1,0,-1,-2,0,-1,-2], 
                   'z':[0,1,2,-1,0,1,2,-2,-1,0,1,2,-2,-1,0,1,-2,-1,0], 
                   'val':[0,0,0,1,0,0,6,3,7,11,0,0,14,18,10,4,20,15,2]})
df.set_index('id', inplace=True)


from sklearn.neighbors import KDTree

# Build k-d tree with the Chebyshev metric, AKA L-infinity
tree = KDTree(df[['x', 'y', 'z']].values, metric='chebyshev')

for radius in [0, 1, 2]:
    # Populate new column with placeholder integer
    df[f'n{radius}'] = -1
    for i, row in df.iterrows():
        coords = row[['x', 'y', 'z']].values.reshape(1, -1)
        idx = tree.query_radius(coords, r=radius)[0]
        df.loc[i, f'n{radius}'] = df.iloc[idx]['val'].sum()

df
    x  y  z  val  n0  n1   n2
id                           
1  -2  2  0    0   0   1   22
2  -2  1  1    0   0   0   25
3  -2  0  2    0   0   6   17
4  -1  2 -1    1   1  11   54
5  -1  1  0    0   0  19   70
6  -1  0  1    0   0  17   57
7  -1 -1  2    6   6   6   31
8   0  2 -2    3   3  25   74
9   0  1 -1    7   7  54   99
10  0  0  0   11  11  46  111
11  0 -1  1    0   0  31   73
12  0 -2  2    0   0  10   33
13  1  1 -2   14  14  62   99
14  1  0 -1   18  18  95  105
15  1 -1  0   10  10  60  107
16  1 -2  1    4   4  16   66
17  2  0 -2   20  20  67  100
18  2 -1 -1   15  15  65  101
19  2 -2  0    2   2  31   80

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

有效地在多个维度上查找邻居并根据邻近度计算值的总和的相关文章

如何在 pytest 中将单元测试和集成测试分开

根据维基百科 https en wikipedia org wiki Unit testing Description和各种articles https techbeacon com devops 6 best practices inte
填充两个函数之间的区域

import matplotlib pyplot as plt import numpy as np def domain x np arange 0 10 0 001 f1 lambda x 2 x x 2 0 5 plt plot x
Pandas 数据帧到 numpy 数组 [重复]

这个问题在这里已经有答案了我对 Python 很陌生经验也很少我已经设法通过复制粘贴和替换我拥有的数据来使一些代码正常工作但是我一直在寻找如何从数据框中选择数据但无法理解这些示例并替换我自己的数据总体目标如果有人真的可以帮助
更改 `base_compiledir` 以将编译后的文件保存在另一个目录中

theano base compiledir指编译后的文件存放的目录有没有办法可以永久设置theano base compiledir到不同的位置也许通过修改一些内部 Theano 文件的内容 http deeplearning net
使用 OLS 回归预测未来值（Python、StatsModels、Pandas）

我目前正在尝试在 Python 中实现 MLR 但不确定如何将我找到的系数应用于未来值 import pandas as pd import statsmodels formula api as sm import statsmodels
从 python 发起 SSH 隧道时出现问题

目标是在卫星服务器和集中式注册数据库之间建立 n 个 ssh 隧道我已经在我的服务器之间设置了公钥身份验证因此它们只需直接登录而无需密码提示怎么办我试过帕拉米科它看起来不错但仅仅建立一个基本的隧道就变得相当复杂尽管代码示例将受
如何从Python中的字符串中提取变量名称和值

我有一根绳子 data var1 id 12345 name John White python中有没有办法将var1提取为python变量更具体地说我对字典变量感兴趣这样我就可以获得变量的值 id和name python 这是由提供
Numpy 过滤器平滑零区域

我有一个 0 及更大整数的 2D numpy 数组其中值代表区域标签例如 array 9 9 9 0 0 0 0 1 1 1 9 9 9 9 0 7 1 1 1 1 9 9 9 9 0 2 2 1 1 1 9 9 9 8 0 2 2 1
奇怪的 MySQL Python mod_wsgi 无法连接到 'localhost' (49) 上的 MySQL 服务器问题

StackOverflow上也有类似的问题但我还没有发现完全相同的情况这是在使用 MySQL 的 OS X Leopard 机器上一些起始信息 MySQL Server version 5 1 30 Apache 2 2 13 Uni
首先对列表中最长的项目进行排序

我正在使用 lambda 来修改排序的行为 sorted list key lambda item item lower len item 对包含元素的列表进行排序A1 A2 A3 A B1 B2 B3 B 结果是A A1 A2 A3 B
Seaborn Pairplot 图例不显示颜色

我一直在学习如何在Python中使用seaborn和pairplot 这里的一切似乎都工作正常但由于某种原因图例不会显示相关的颜色我无法找到解决方案因此如果有人有任何建议请告诉我 x sns pairplot stats2 hue
将 matplotlib 颜色图集中在特定值上

我正在使用 matplotlib 颜色图 seismic 绘制绘图并且希望白色以 0 为中心当我在不进行任何更改的情况下运行脚本时白色从 0 下降到 10 我尝试设置 vmin 50 vmax 50 但在这种情况下我完全失去了白色关
在 Pandas 中使用正则表达式的多种模式

我是Python编程的初学者我正在探索正则表达式我正在尝试从描述列中提取一个单词数据库名称我无法给出多个正则表达式模式请参阅下面的描述和代码描述 Summary AD1 Low free DATA space in data
使用 Firefox 绕过弹出窗口下载文件：Selenium Python

我正在使用 selenium 和 python 来从中下载某些文件web page http www oceanenergyireland com testfacility corkharbour observations 我之前一直使用设
使用yield 进行字典理解

作为一个人为的例子 myset set a b c d mydict item yield join item s for item in myset and list mydict gives as cs bs ds a None b N
默认情况下，Keras 自定义层参数是不可训练的吗？

我在 Keras 中构建了一个简单的自定义层并惊讶地发现参数默认情况下未设置为可训练我可以通过显式设置可训练属性来使其工作我无法通过查看文档或代码来解释为什么会这样这是应该的样子还是我做错了什么导致默认情况下参数不可训练代码 im
如何为每个屏幕添加自己的 .py 和 .kv 文件？

我想为每个屏幕都有一个单独的 py 和 kv 文件应通过 main py main kv 中的 ScreenManager 选择屏幕设计应从文件 screen X kv 加载类等应从文件 screen X py 加载 Screens
如何读取Python字节码？

我很难理解 Python 的字节码及其dis module import dis def func x 1 dis dis func 上述代码在解释器中输入时会产生以下输出 0 LOAD CONST 1 1 3 STORE FAST 0 x
检查字典键是否有空值

我有以下字典 dict1 city name yass region zipcode phone address tehsil planet mars 我正在尝试创建一个基于 dict1 的新字典但是它不会包含带有空字符串的键它不会包
结构体指针的动态数组

我必须使用以下代码块来完成学校作业严格不进行任何修改 typedef struct char firstName char lastName int id float mark pStudentRecord pStudentRecord

随机推荐

如何解析xsd:dateTime格式？

xsd dateTime 类型的值可以有多种形式如描述于RELAX NG http books xmlschemata org relaxng ch19 77049 html 如何将所有表单解析为时间或日期时间对象它实际上是一种非常受限
如何通过我自己的模板使用内置密码重置/更改视图

例如我可以指出url accounts password reset to django contrib auth views password reset在上下文中使用我的模板文件名但我认为需要发送更多上下文详细信息我需要确切地知道为
使用python打印月份和日期

我试图在 python 中仅打印月份和日期如下所示 09 December 08 October 我怎么能这么做呢 Try this import datetime now datetime datetime now print now
命令行参数 - 所需对象：'objshell.NameSpace(...)'

我正在编写一个脚本该脚本将利用 Windows 的内置功能来解压缩提供的 zip 文件我对 vbscript 还很陌生所以有些语法让我有点困惑我正在使用一些现有代码并尝试修改它以便它将采用命令行选项作为文件名如果我使用命令行传递
仅向一个应用程序发送广播意图，而不使用显式意图

我有个问题我正在做一个外部 android 服务应用程序可以注册它来接收信息信息通过广播从服务返回到应用程序并通过broadcastReceiver 问题是如果我这样做sendBroadcast 任何应用程序都可以监听其他应用程序的
结构末尾的大小为 0 的数组[重复]

这个问题在这里已经有答案了我正在学习的系统编程课程的教授今天告诉我们要定义一个末尾带有零长度数组的结构体 struct array size t size int data 0 typedef struct array array 这是一
极长工作流程的 Cucumber 场景

我们需要为一个功能测试一个漫长的步骤过程从登录到许多模式对话框多步骤表单以及不同角色的用户都在交互我们如何将这个过程的各个部分分解为单独的场景这是一个例子 Scenario New Manuscript Given I am on
如何获取用户当前在 Spotify 应用程序中收听的内容的信息 [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案 Android 应用程序在后台运行并使用 Spotify SDK 能否获取用户当前在 Spotify Android 应用程序中收听
是否有复杂的 Java WorkQueue API？

我正在寻找具有以下功能的 WorkQueue API java util Queue兼容的优惠可选集合语义单处理和批处理并发当然调度 different processing policies 等到下一次计划执行如果批量大小
PowerPivot 中的滚动 12 个月总和

在 PowerPivot Excel 2016 中我编写了滚动 12 个月销售额总和的公式如下所示 Rolling Sum CALCULATE Sales DATESBETWEEN Sales Date FIRSTDATE DATEAD
Python：使用 Openpyxl 读取大型 Excel 工作表

我有一个 Excel 文件其中包含大约 400 个工作表其中 375 个工作表需要保存为 CSV 文件我尝试过 VBA 解决方案但 Excel 在打开此工作簿时遇到问题我创建了一个 python 脚本来做到这一点然而它会迅速消
UISegmentedControl 截断段标题

我的 iPhone 应用程序中有一个分段控件在 ios6 上运行良好但在 ios7 上分段图块被截断有足够的空间容纳文本但无论如何都会截断它们 self segmentedControl segmentedControlStyle
tf.estimator.train_and_evaluate 出错了评估精度和损失

I use tf estimator train and evaluate训练和评估我的模型这是我的代码 import tensorflow as tf import numpy as np from tensorflow contrib
为什么 C++ 友元类只需要在其他命名空间中进行前向声明？

假设我有一堂课F那应该是班级的朋友G 在全局命名空间中和C 在命名空间中A 成为朋友A C F必须向前声明成为朋友G 没有前向声明F是必要的同样一个类A BF可以成为朋友A C无前置声明以下代码说明了这一点并使用 GCC 4 5
将 C++ 代码从 Windows 移植到 Mac

我是一名长期的 Windows 开发人员看起来我将参与将 Windows 应用程序移植到 Mac 的工作我们决定对两侧的 GUI 使用 Flex Air 顺便说一句它看起来非常光滑我的 Windows 应用程序有一个控制网络适配器
R 错误：“尝试在 get1index 中选择少于一个元素”

我是 R 初学者我正在尝试使用该包ClonEvol 但是 github 网页上的文档非常有限所以现在我正在使用他们的示例代码并尝试将其适应我的数据称为ce ce lt data frame cluster c 1 1 1 1 2 2
为什么“this”指针在单步执行代码时会改变其值？

我正在调试崩溃我注意到调试器的一个步骤 this指针改变了它的值经过 3 个步骤它最终得到了值 0x00000001 应用程序崩溃了现在 0x00000001 值显然是错误的但我真的应该期待吗this当我单步执行调试器时值会改变吗
Chrome 文件阅读器

有人可以给我一个使用 FileReader API 在 chrome 中获取文件内容的示例吗似乎要回归了undefined for me
如何使用 Espresso 检查 Viewpager 项目 ID？

我有一个 Viewpager 它由相同片段视图的副本组成您可以在它们之间滑动我正在编写一个 Espresso 测试并尝试对每个页面的 id 进行断言但它们显然是不明确的因为加载了多个页面并且它们都共享相同的 id 我不想将视图寻呼机
有效地在多个维度上查找邻居并根据邻近度计算值的总和

我的任务是找到中心元素可变距离内所有元素的总价值这些元素使用 3 个维度我的数据中的列进行排列每个元素在给定 3 个维度的情况下都有一个唯一的位置并且有一个唯一的 id 我有一个可以完成我想要的工作的版本但是它非常慢我正在使用

有效地在多个维度上查找邻居并根据邻近度计算值的总和

有效地在多个维度上查找邻居并根据邻近度计算值的总和 的相关文章

随机推荐

热门标签

有效地在多个维度上查找邻居并根据邻近度计算值的总和的相关文章