在字典中查找整数最近邻

2023-12-24

我有一个dict需要整数键：

a = {}
a[1] = 100
a[55] = 101
a[127] = 102

我希望在询问时能够选择最近的邻居：

a[20] # should return a[1] = 100
a[58] # should return a[55] = 101
a[167] # should return a[127] = 102

有没有一种Python式的方法可以做到这一点？（我想这可以通过循环所有字典来完成，但这可能不是最优雅的解决方案？）

双索引同样的问题（也是整数）：

 b[90, 1] = 100, b[90, 55] = 101, b[90, 127] = 102
 b[70, 1] = 40, b[70, 45] = 41, b[70, 107] = 42

我希望能够得到 b[73, 40] = b[70, 45] = 41, 即 2D 平面中的最近邻。

Update：在对这个答案中的两种方法进行基准测试之后，second方法明显更好，以至于它应该almost严格优选。

下面的方法处理n- 尺寸相同：

class NearestDict(dict):
    def __init__(self, ndims):
        super(NearestDict, self).__init__()
        self.ndims = ndims

    # Enforce dimensionality
    def __setitem__(self, key, val):
        if not isinstance(key, tuple): key = (key,)
        if len(key) != self.ndims: raise KeyError("key must be %d dimensions" % self.ndims)
        super(NearestDict, self).__setitem__(key, val)

    @staticmethod
    def __dist(ka, kb):
        assert len(ka) == len(kb)
        return sum((ea-eb)**2 for (ea, eb) in zip(ka, kb))

    # Helper method and might be of use
    def nearest_key(self, key):
        if not isinstance(key, tuple): key = (key,)
        nk = min((k for k in self), key=lambda k: NearestDict.__dist(key, k))
        return nk

    def __missing__(self, key):
        if not isinstance(key, tuple): key = (key,)
        if len(key) != self.ndims: raise KeyError("key must be %d dimensions" % self.ndims)
        return self[self.nearest_key(key)]

Demo:

a = NearestDict(1)
a[1] = 100
a[55] = 101
a[127] = 102
print a[20]    # 100
print a[58]    # 100
print a[167]   # 102
print a.nearest_key(20)     # (1,)
print a.nearest_key(58)     # (55,)
print a.nearest_key(127)    # (127,)

b = NearestDict(2)
b[90, 1]   = 100
b[90, 55]  = 101
b[90, 127] = 102
b[70, 1]   = 40
b[70, 45]  = 41
b[70, 107] = 42
print b[73, 40] # 41
print b.nearest_key((73,40)) # (70, 45)

请注意，如果键存在，则查找不会比标准字典查找慢。如果钥匙does not存在，您计算每个现有键之间的距离。没有缓存任何内容，尽管我想您可以添加它。

Edit:

从建议的方法卡斯拉的回答 https://stackoverflow.com/a/29094947/736937以下方法使用与上面相同的类来实现scipy's cKDTree http://docs.scipy.org/doc/scipy/reference/generated/scipy.spatial.cKDTree.html:

请注意，还有一个额外的可选参数，regenOnAdd这将允许您推迟（重新）构建 KDTree，直到完成（大部分）插入之后：

from scipy.spatial import cKDTree

class KDDict(dict):
    def __init__(self, ndims, regenOnAdd=False):
        super(KDDict, self).__init__()
        self.ndims = ndims
        self.regenOnAdd = regenOnAdd
        self.__keys = []
        self.__tree = None
        self.__stale = False

    # Enforce dimensionality
    def __setitem__(self, key, val):
        if not isinstance(key, tuple): key = (key,)
        if len(key) != self.ndims: raise KeyError("key must be %d dimensions" % self.ndims)
        self.__keys.append(key)
        self.__stale = True
        if self.regenOnAdd: self.regenTree()
        super(KDDict, self).__setitem__(key, val)

    def regenTree(self):
        self.__tree = cKDTree(self.__keys)
        self.__stale = False

    # Helper method and might be of use
    def nearest_key(self, key):
        if not isinstance(key, tuple): key = (key,)
        if self.__stale: self.regenTree()
        _, idx = self.__tree.query(key, 1)
        return self.__keys[idx]

    def __missing__(self, key):
        if not isinstance(key, tuple): key = (key,)
        if len(key) != self.ndims: raise KeyError("key must be %d dimensions" % self.ndims)
        return self[self.nearest_key(key)]

输出与上面的方法相同。

基准测试结果

了解三种方法的性能（NearestDict, KDDict(True)（插入时再生），以及KDDict(False)（延迟再生）），我简要地对它们进行了基准测试。

我进行了 3 次不同的测试。在测试中保持不变的参数是：

测试迭代次数：每个测试我都做了5次，并且花费了最短的时间。（笔记timeit.repeat默认为 3)。
点边界：我生成了 0
查找次数：我分别对插入和查找进行计时。下面的三个测试均使用 10,000 次查找。

第一个测试使用 4 个维度的按键和 1,000 次插入。



{'NDIMS': 4, 'NITER': 5, 'NELEMS': 1000, 'NFINDS': 10000, 'DIM_LB': 0, 'DIM_UB': 1000, 'SCORE_MUL': 100}
insert::NearestDict       0.125
insert::KDDict(regen)    35.957
insert::KDDict(defer)     0.174
search::NearestDict    2636.965
search::KDDict(regen)    49.965
search::KDDict(defer)    51.880

第二次测试使用 4 维按键和 100 次插入。我想改变插入的数量，看看随着字典密度的变化，这两种方法的表现如何。



{'NDIMS': 4, 'NITER': 5, 'NELEMS': 100, 'NFINDS': 10000, 'DIM_LB': 0, 'DIM_UB': 1000, 'SCORE_MUL': 100}
insert::NearestDict       0.013
insert::KDDict(regen)     0.629
insert::KDDict(defer)     0.018
search::NearestDict     247.920
search::KDDict(regen)    44.523
search::KDDict(defer)    44.718

第三次测试使用了 100 次插入（与第二次测试类似），但使用了 12 个维度。我想看看随着关键维度的增加，这些方法的表现如何。



{'NDIMS': 12, 'NITER': 5, 'NELEMS': 100, 'NFINDS': 10000, 'DIM_LB': 0, 'DIM_UB': 1000, 'SCORE_MUL': 100}
insert::NearestDict       0.013
insert::KDDict(regen)     0.722
insert::KDDict(defer)     0.017
search::NearestDict     405.092
search::KDDict(regen)    49.046
search::KDDict(defer)    50.601

讨论

KDDict连续再生（KDDict(True)) 要么稍微快一些（在查找中）或者相当较慢（插入时）。因此，我将其排除在讨论之外，并将重点放在NearestDict and KDDict(False)，现在简称为KDDict

结果令人惊讶地支持具有延迟再生的 KDDict。

对于插入，在所有情况下，KDDict 的表现都比 NearestDict 稍差。这是预料之中的，因为有额外的列表追加操作。

对于搜索，在所有情况下，KDDict 都执行明显更好比最近的字典。

随着字典稀疏度的降低/密度的增加，NearestDict 的性能下降程度比 KDDict 更大。当从 100 个键增加到 1000 个键时，NearestDict 搜索时间增加了 9.64 倍，而 KDDict 搜索时间仅增加了 0.16 倍。

随着字典维数的增加，NearestDict 的性能下降幅度大于 KDDict。当从 4 维变为 12 维时，NearestDict 搜索时间增加了 0.64 倍，而 KDDict 搜索时间仅增加了 0.13 倍。

鉴于此，以及两个类的相对相同的复杂性，如果您可以访问 scipy 工具包，请使用KDDict强烈推荐这种方法。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

在字典中查找整数最近邻的相关文章

将非常大的Python列表输出保存到mysql表中

我想将 python 生成的列表的输出保存在 mysql 数据库的表中该表如下所示 mysql 中的 myapc8 表 https i stack imgur com 4B4Hz png这是Python代码在此输入图像描述 https
反编译Python 3.9.2的PYC文件[重复]

这个问题在这里已经有答案了目前我有一个 3 9 2 版本的 python 的 PYC 文件 P S 这适用于所有 3 9 及更高版本我正在尝试反编译 PYC 文件但它显示错误因为 uncompyle6 或者更确切地说新版本 de
无法在 selenium 和 requests 之间传递 cookie，以便使用后者进行抓取

我用 python 结合 selenium 编写了一个脚本来登录网站然后从driver to requests这样我就可以继续使用requests进行进一步的活动 I used item soup select one div class
测量数组的“无序”程度

给定一个值数组我想找到总分数其中每个元素的分数是数组中出现在其之前的具有较小值的元素的数量 e g values 4 1 3 2 5 scores 0 0 1 1 4 total score 6 O n 2 算法很简单但我怀疑可以通
在 python pandas 中，如何保存“网格图”？

我对 pandas 绘图工具很陌生在文档中以下命令非常方便 myplot rts ret hist bins 50 by rts primary mic 然而当我尝试从图中获取图形参考并保存它时问题就出现了 myfigure myp
关于逻辑/算法的想法以及如何防止线程写入 Sql Server 中的竞争

我有以下逻辑 public void InQueueTable DataTable Table int incomingRows Table Rows Count if incomingRows gt RowsThreshold async
Arcpy 模数在 Pycharm 中不显示

如何将 Arcpy 集成到 Pycharm 中我尝试通过导入模块但它没有显示我确实知道该模块仅适用于 2 x python arcpy 在 PyPi Python 包索引上不可用因此无法通过 pip 安装要使用 arcpy 您需要
Python HMAC：类型错误：字符映射必须返回整数、None 或 unicode

我在使用 HMAC 时遇到了一个小问题运行这段代码时 signature hmac new key secret key msg string to sign digestmod sha1 我收到一个奇怪的错误 File usr loca
Python将文本文件解析为嵌套字典

考虑以下数据结构 HEADER1 key value key value HEADER2 key value key value HEADER3 key value HEADER4 key value key value 原始数据中没有缩进
寻找局部最小值

下面的代码正确地找到了数组的局部最大值但未能找到局部最小值我已经进行了网络搜索以找到找到最小值的最佳方法并且根据这些搜索我认为我正在使用下面的正确方法但是在几天的时间里多次检查每一行之后下面的代码中有一些我仍然没有看到的错误
Spark 和 Python 使用自定义文件格式/生成器作为 RDD 的输入

我想问一下 Spark 中输入的可能性我可以看到从http spark apache org docs latest programming guide html http spark apache org docs latest pro
Plotly：如何检查基本图形结构（版本 4）

对于旧版本的plotly 例如在 Jupyterlab 中您可以简单地运行figure像这样检查你的图形的基础知识 Ouput data marker color red size 10 symbol 104 mode markers l
pandas 相当于 np.where

np where具有向量化 if else 的语义类似于 Apache Spark 的when otherwise数据帧方法我知道我可以使用np where on pandas Series but pandas通常定义自己的 API
Python bug - 或者我的愚蠢 - 扫描字符串文字时 EOL

我看不出以下两行之间有显着差异然而第一个解析而后者则不解析 In 5 n Axis of Awesome In 6 n Axis of Awesome File
检测是否从psycopg2游标获取？

假设我执行以下命令 insert into hello username values me 我跑起来就像 cursor fetchall 我收到以下错误 psycopg2 ProgrammingError no results to fe
使用 PIL 在 Tkinter 中显示动画 GIF

我正在尝试制作一个程序来使用 Tkinter 显示动画 GIF 这是我最初使用的代码 from future import division Just because division doesn t work right in 2 7 4
如何将带有参数的Python装饰器实现为类？

我正在尝试实现一个接受一些参数的装饰器通常带有参数的装饰器被实现为双重嵌套闭包如下所示 def mydecorator param1 param2 do something with params def wrapper fn def
如何从namedtuple实例列表创建pandas DataFrame（带有索引或多索引）？

简单的例子 from collections import namedtuple import pandas Price namedtuple Price ticker date price a Price GE 2010 01 01 30
如何使用 python 定位和读取 Data Matrix 代码

我正在尝试读取微管底部的数据矩阵条形码我试过libdmtx http libdmtx sourceforge net 它有 python 绑定当矩阵的点是方形时工作得相当好但当矩阵的点是圆形时工作得更糟如下所示另一个复杂问题是在某
IndexError - 具有匀称形状的笛卡尔 PolygonPatch

我曾经使用 shapely 制作一个圆圈并将其绘制在之前填充的图上这曾经工作得很好最近我收到索引错误我将代码分解为最简单的操作但它甚至无法执行最简单的循环 import descartes import shapely geome

随机推荐

如何以编程方式获取 iPhone 屏幕尺寸？ [复制]

这个问题在这里已经有答案了可能的重复如何使用代码获取屏幕尺寸 https stackoverflow com questions 3635483 how to get screen size using code NSLog Top L
如何手动验证 JWT Asp.Net Core？

那里有数以百万计的指南但似乎没有一个能满足我的需要我正在创建一个身份验证服务器它只需要颁发并验证重新颁发令牌所以我无法创建一个中间件类来验证 cookie 或标头我只是收到字符串的 POST 我需要以这种方式验证令牌而不是A
当 fd 关闭时，我会收到 epoll 的通知吗？

我目前正在构建一些使用的东西epoll 它工作得很好但是当文件描述符被删除时最好有一个通知epoll当底层的fd关闭了有没有办法获得通知epoll一旦fd关闭了不这是一个Zig https ziglang org 程序来演示 con
Java 9 的 LogManager.getLogger() / Logger.getHandlers() 上缺少斜杠似乎会导致异常

当我尝试创建日志文件 C Users cardal ApplicationLog html 时我发现 Windows 上运行 Java 9 的 Applet 出现问题该代码在 Java 8 上运行良好代码执行LogManager re
checkSelfPermission() 似乎不适用于 WRITE_EXTERNAL_STORAGE

我有使用的应用程序
如何在 Ruby on Rails 中的 ActiveRecord 查询中加入间接关联？

在我的 Ruby on Rails 应用程序中我有一个模型Instance属于另一个模型Zone The Zone模型本身属于Country模型我正在获取一组Instance对象如下 scope thisweek gt joins zo
Facebook 登录按钮无法在 45 秒内调整大小

我正在尝试实现异步加载 Facebook 登录按钮但该按钮在 45 秒后消失仅在 Google Chrome 中并且此错误消息记录在错误控制台中 FB login button failed to re size in 45s 我该如
基于一列生成单词对

我想根据第三列标识符创建单词对我的文件与此示例类似 A ID 1 B ID 2 C ID 1 D ID 1 E ID 2 F ID 3 我想要的结果是 A C ID 1 A D ID 1 B E ID 2 C D ID 1 请注意我
使用线程通过 Swift 更新 UI

我正在使用 Swift 使用 Xcode 6 开发一个软件当我按下按钮时我的代码会从网络获取一些信息并将它们写入我的 NSWindow 上所以想象一下这样的事情 IBAction func buttonPressed sender A
x 秒后 Symfony2 PHP 标头重定向

我试图在 Symfony 中 x 秒后进行 PHP 标头重定向如下所示 header refresh 5 url http www something com 我怎样才能在 Symfony2 中做到这一点根据doc http symfo
websphere 7（和 Spring Roo）与 javax.el.ELException 不兼容

我有一个应用程序其前端基于 Spring Roo 1 1 2 jspx 文件每个想法在 Tomcat 6 中都工作正常但如果我在 Websphere 7 中部署相同的应用程序类加载器父级最后则会出现异常 java lang Cl
在 JFrame 中设置背景图像

是否有任何方法可以将图像设置为背景JFrame 没有内置方法但有几种方法可以做到这一点目前我能想到的最直接的方法是创建一个子类JComponent http docs oracle com javase 8 docs api java
如何检查对远程 Git 存储库的写访问权限（“我可以推送吗？”）

我正在构建一个有些有限的 Git 客户端要设置存储库请输入远程存储库的 URL 我想检查用户是否对该存储库具有读写访问权限如果没有我会显示一个身份验证对话框 I check 读取访问权限 with git ls remote
表单身份验证和 XmlDocument.Load

我正在使用 C 运行一个 ASP NET Web 应用程序使用以下内容 Windows 2003 服务器 IIS6 0 net框架2 0 50727 我正在尝试实现表单身份验证并在 Web Config 文件中输入了以下代码
无法从静态方法 Flutter 访问实例成员

我正在尝试打电话playRefreshBar在我的代码中但我收到这样的警告无法从静态方法访问实例成员这是我的静态代码 static List
准备好的声明方法..困惑

我不知道缺少什么或为什么它不显示数据如果我不使用准备好的语句我的代码就可以工作当我使用准备好的语句时代码似乎不再起作用 db php Class Database public mysqli public function cons
如何在 C# 中读取 Http 响应流两次？

我试图通过以下方式读取 Http 响应流两次 HttpWebResponse response HttpWebResponse request GetResponse stream response GetResponseStream Rs
“导航器”类型上不存在属性蓝牙

我综合了示例代码 https googlechrome github io samples web bluetooth device information characteristics html进入我的 Angular 6 项目但有一
使用perl创建一个简单的计算器

我需要用 Perl 设计一个简单的计算器名为 ex1 pl 只需 and 功能以下是我所拥有的 while ARGV gt 0 if m d s s d if 2 print 1 3 n elsif 2 print 1 3 n elsi
在字典中查找整数最近邻

我有一个dict需要整数键 a a 1 100 a 55 101 a 127 102 我希望在询问时能够选择最近的邻居 a 20 should return a 1 100 a 58 should return a 55 101 a 167

在字典中查找整数最近邻

在字典中查找整数最近邻 的相关文章

随机推荐

热门标签

在字典中查找整数最近邻的相关文章