在 Python 中对不可变字典进行哈希处理

2023-12-29

简洁版本：对于作为无序项字典实现的多重集，最好的哈希算法是什么？

我正在尝试对作为字典实现的不可变多重集（在其他语言中是一个包或多重集：就像一个数学集，除了它可以容纳多个元素）进行散列。我创建了标准库类的子类collections.Counter，类似于这里的建议：Python 可哈希字典 https://stackoverflow.com/questions/1151658/python-hashable-dicts，它推荐像这样的哈希函数：

class FrozenCounter(collections.Counter):
    # ...
    def __hash__(self):
        return hash(tuple(sorted(self.items())))

创建完整的项目元组会占用大量内存（例如，相对于使用生成器），并且散列将发生在我的应用程序的内存极其密集的部分中。更重要的是，我的字典键（多集元素）可能无法订购。

我正在考虑使用这个算法：

def __hash__(self):
    return functools.reduce(lambda a, b: a ^ b, self.items(), 0)

我认为使用按位异或意味着与元组的散列不同，顺序对于散列值并不重要？我想我可以在数据的无序元组流上半实现 Python 元组哈希算法。看https://github.com/jonashaag/cpython/blob/master/Include/tupleobject.h https://github.com/jonashaag/cpython/blob/master/Include/tupleobject.h（在页面中搜索“哈希”一词）——但我几乎不知道足够的 C 语言来阅读它。

想法？建议？谢谢。

(If you're wondering why I'm messing around with trying to hash a multiset: The input data for my problem are sets of multisets, and within each set of multisets, each multiset must be unique. I'm working on a deadline and I'm not an experienced coder, so I wanted to avoid inventing new algorithms where possible. It seems like the most Pythonic way to make sure I have unique of a bunch of things is to put them in a set(), but the things must be hashable.)

我从评论中收集到的内容

@marcin 和 @senderle 给出了几乎相同的答案：使用hash(frozenset(self.items()))。这是有道理的，因为items()“视图”是类似集合的 http://docs.python.org/py3k/library/stdtypes.html#dictionary-view-objects。 @marcin 是第一个，但我给了 @senderle 复选标记，因为对不同解决方案的 big-O 运行时间进行了很好的研究。 @marcin 还提醒我包括一个__eq__ method http://docs.python.org/py3k/reference/datamodel.html#object.__hash__——但是继承自dict会工作得很好。这就是我实现一切的方式——欢迎基于此代码的进一步评论和建议：

class FrozenCounter(collections.Counter):
    # Edit: A previous version of this code included a __slots__ definition.
    # But, from the Python documentation: "When inheriting from a class without
    # __slots__, the __dict__ attribute of that class will always be accessible,
    # so a __slots__ definition in the subclass is meaningless."
    # http://docs.python.org/py3k/reference/datamodel.html#notes-on-using-slots
    # ...
    def __hash__(self):
        "Implements hash(self) -> int"
        if not hasattr(self, '_hash'):
            self._hash = hash(frozenset(self.items()))
        return self._hash

由于字典是不可变的，因此可以在创建字典时创建哈希并直接返回它。我的建议是创建一个frozenset http://docs.python.org/library/stdtypes.html#frozenset from items（3+；iteritems2.7），对其进行散列，并存储散列。

提供一个明确的例子：

>>>> frozenset(Counter([1, 1, 1, 2, 3, 3, 4]).iteritems())
frozenset([(3, 2), (1, 3), (4, 1), (2, 1)])
>>>> hash(frozenset(Counter([1, 1, 1, 2, 3, 3, 4]).iteritems()))
-3071743570178645657
>>>> hash(frozenset(Counter([1, 1, 1, 2, 3, 4]).iteritems()))
-6559486438209652990

为了澄清为什么我更喜欢frozenset到已排序项目的元组：afrozenset不必对项目进行排序，因此初始哈希在 O(n) 时间内完成，而不是 O(n log n) 时间。这可以从frozenset_hash http://hg.python.org/cpython/file/5fd1ac1c9474/Objects/setobject.c#l766 and set_next http://hg.python.org/cpython/file/5fd1ac1c9474/Objects/setobject.c#l531实施。

另请参阅此很好的答案 https://stackoverflow.com/a/20931478Raymond Hettinger 描述了他的实施frozenset哈希函数。在那里，他明确解释了哈希函数如何避免对值进行排序以获得稳定的、顺序不敏感的值。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

在 Python 中对不可变字典进行哈希处理的相关文章

OutOfRangeError（请参阅上面的回溯）：FIFOQueue '_1_batch/fifo_queue' 已关闭并且元素不足（请求 32，当前大小 0）

我在使用队列中张量流读取图像时遇到问题请让我知道我犯了什么错误下面是代码 import tensorflow as tf slim tf contrib slim from tensorflow python framework imp
更改seaborn.clustermap中ytick标签的颜色

是否可以更改seaborn clustermap中ytick标签的颜色所以对于Seaborn 鸢尾花示例 http seaborn pydata org generated seaborn clustermap html 可以根据物种设置
按 A 列删除重复项，保留 B 列中具有最高值的行

我有一个数据框 A 列中有重复值我想删除重复项保留 B 列中具有最高值的行 So this A B 1 10 1 20 2 30 2 40 3 10 应该变成这样 A B 1 20 2 40 3 10 我猜想可能有一种简单的方法可以做到
将预训练的手套词嵌入与 scikit-learn 结合使用

我已经使用 keras 来使用预先训练的词嵌入但我不太确定如何在 scikit learn 模型上执行此操作我也需要在 sklearn 中执行此操作因为我正在使用vecstack集成 keras 序列模型和 sklearn 模型这就
如何使用 QWebView 显示 html。 Python？

如何在控制台中显示 HTML 格式的网页 import sys from PyQt4 QtGui import QApplication from PyQt4 QtCore import QUrl from PyQt4 QtWebKit i
将字段重新格式化为列，其他字段（与先前结构中成为列的字段配对）成为新列中的字段

我的任务是清理慈善机构设计的移动应用程序中的数据在一个部分中用户问答应用程序使用会话由一行表示该部分由重复的问题答案字段对组成其中一个字段代表所提出的问题然后它旁边的字段代表相应的答案每个问题字段和答案列对一起代表一个独特的问
使用记事本打开文本文件作为python中的帮助文件？

我想为我的简单程序的用户提供打开帮助文件的机会以指导他们如何充分利用我的程序理想情况下我希望在 GUI 上有一个蓝色的小帮助链接可以随时单击该链接从而在本机文本编辑器例如记事本中打开 txt 文件有没有一种简单的方法可以做到
通过 rpy 将 SPSS 文件（.sav）导入 pandas 时如何保留标签？

我正在寻找使用 SPSS 文件 sav pandas 在没有 SPSS 程序的情况下典型文件转换为 csv 后的样子如下在调查前两行的含义时我不知道 SPSS 似乎第一行包含Labels 而第二行包含VarNames 当我将文件带入
如何创建毫秒粒度的 Python 时间戳？

我需要一个自纪元以来的毫秒 ms 时间戳这应该不难我确信我只是缺少一些方法datetime或类似的东西实际上微秒 s 粒度也很好我只需要亚 1 10 秒的计时例子我有一个每 750 毫秒发生一次的事件假设它检查灯是否打开或关闭
可以memmap pandas系列。数据框怎么样？

看来我可以通过创建 mmap d ndarray 并使用它来初始化系列来对 python 系列的底层数据进行内存映射 def assert readonly iloc try iloc 0 999 Should be non editabl
Emacs：在缓冲区求值期间将参数传递给下级 Python shell

最近我开始使用 Emacs 作为 Python IDE 它不太直观我现在遇到的问题是当使用 C c C c 评估缓冲区时如何将命令行参数传递给下级 python shell 感谢帮助这似乎并不容易实现管理的劣质流程python el模
如何列出静态链接的 python 版本中可用的所有 openssl 密码？

在python 2 7 8到2 7 9升级中 ssl模块从使用更改为 DEFAULT CIPHERS DEFAULT aNULL eNULL LOW EXPORT SSLv2 to DEFAULT CIPHERS ECDH AESGCM D
创建 df 以生成给定格式的 json

我正在尝试生成一个 df 来生成下面的 json Json数据 name flare children name K1 children name Exact size 4 name synonyms size 14 name K2 chi
如何避免在matplotlib中调用latex（输出到pgf）

我使用 matplotlib 及其 pgf 后端来生成包含在 LaTeX 投影仪文档中的绘图当我使用未定义的乳胶命令时我遇到了麻烦但对于我的应用程序我不需要 matplotlib 来使用 Latex 生成标签或注释我只想要正确的
将 Selenium 与 PyCharm CE 结合使用

我正在尝试将 Selenium 与 PyCharm CE 一起使用我已经使用 pip install Selenium 安装了 Selenium 并且可以通过终端使用它但是当我尝试将它与 PyCharm 一起使用时出现导入错误 Imp
如何在Python中获取套接字的外部IP？

当我打电话时socket getsockname 在套接字对象上它返回我的机器的内部 IP 和端口的元组但是我想找回我的外部IP 最便宜最有效的方式是什么如果没有外部服务器的配合这是不可能的因为您和另一台计算机之间可能存在任意
使用枚举名称而不是值对 Pydantic 字段进行编码

我有一个枚举类 class Group enum Enum user 0 manager 1 admin 2 我有一个 pydantic 模型 class User BaseModel id int username str group G
在 python 中使用 re.sub 将字母变成大写？

在许多编程语言中以下内容 find foo a z bar并替换为GOO U 1GAR 将导致整个匹配项变为大写我似乎无法在 python 中找到等效项它存在吗您可以将函数传递给re sub http docs python org
*Python 内的 Kaggle API 文档？

我想写一个python从 Kaggle com 下载公共数据集的脚本 Kaggle API 是用 python 编写的但是我能找到的几乎所有文档和资源都是关于如何在命令行中使用该 API 的而关于如何使用kaggle图书馆内python
Spark (Python) 中的 Kolmogorov Smirnov 测试不起作用？

我正在 Python Spark ml 中进行正态性测试看到了我的结果think是一个错误这是设置我有一个标准化的数据集范围 1 到 1 当我做直方图时我可以清楚地看到数据不正常 gt gt gt prices norm hist

随机推荐

使用 ffmpeg 转换为 .mp4 时，从 iPhone 捕获的视频会旋转

当我尝试在应用程序中上传从 iPhone 捕获的视频时服务器会执行从 mov 到 mp4 的转换以便可以在其他平台上播放然而问题是当我拍摄视频纵向并将其转换使用 ffmpeg 然后从服务器播放时它似乎被旋转任何想法 FFM
我可以在 url 的路径部分使用 at (@) 符号吗

我知道它不能成为权限部分的一部分因为那里使用带有的用户名但是我可以在路径部分中使用它吗我想使用它的原因是作为用户资源的 URL 的一部分例如 www example com 电子邮件受保护 cdn cgi l email prot
我应该告诉 Mercurial 忽略 Xcode iOS 项目中的哪些文件？

在编写 iOS 应用程序时 Xcode 会处理许多文件我在编程时注意到 xcodeproj文件总是被修改我想知道的是无论是否 xcodeprojMercurial 是否应忽略文件另外还有其他文件应该被 Mercurial 忽略吗我
ServiceStack JsonServiceClient OnAuthenticationRequired

这是 StackOverflow 上的第一篇文章所以如果我做错了什么请耐心等待我正在使用 ServiceStack 创建 RESTful Web 服务在开发示例 Windows 客户端时我发现了 JsonServiceClient
使用图形 API 预配的 Azure Cosmos DB 上的 mongodb 连接字符串是什么？

我发现 CosmosDB 可以通过任何支持的 api 进行访问无论它是否首先设置为 GraphDB https learn microsoft com en us azure cosmos db mongodb introduction
Woocommerce 类别、子类别和产品列表

我正在为 Wordpress Woocommerce 网站设置模板我想显示产品类别子类别和产品列表以充当动态菜单我希望它的行为像这样 category 1 subcategory 1 product 1 product 2 subca
具有约束的图中两个坐标点之间的最短路径的数量

我得到了几个坐标点 source 0 0 目的地 m n 一组坐标点S x y 这样0 lt x lt m and 0 lt y lt n 目的是找出之间的最短路径的数量 0 0 and m n 使得集合中的任意点S在这些路径中从未遇到过
角度拦截器根据响应路由到不同的路径

我正在玩 Angular 拦截器如果响应状态是我想重新路由401以下是我尝试过的 Injectable export class AuthInterceptorService implements HttpInterceptor con
XPath 选择所有父节点不包含特定属性和值的节点

我有以下 XML 结构
保存 Bokeh 仪表板（独立）以及内部生成的所有数据

有没有办法在编辑后保存 Bokeh 仪表板例如我已经加载了仪表板创建了一些绘图并保存了它们最后一个选项卡然后我想将我的进度保存到 html 文件中这样我就不必在初始化脚本后每次都再次执行所有这些操作 This is the
Mach-O 64 位格式不支持 32 位绝对地址。 NASM [重复]

这个问题在这里已经有答案了当我使用nasm f macho64 asm1 asm我收到以下错误 asm1 asm 14 错误 Mach O 64 位格式不支持 32 位绝对地址 This is asm1 asm SECTION data
ListView 中的垂直网格线

我有一个 WPF ListView 我将其用作 GridView 有什么办法可以在那里获得垂直网格线吗 ListView 指定了 MinHeight 因此我希望 GridLine 一直到达网格底部这样它将填充空白空间这似乎是一个相当棘手
未捕获的类型错误：无法读取 null 的属性“offsetWidth”[重复]

这个问题在这里已经有答案了在发布这个问题之前我阅读了几个主题不幸的是我找不到适合我的问题的答案这是我的代码片段
OperationQueue.main 与 DispatchQueue.main

当您需要在网络任务或操作的完成块中的主线程上执行某些操作时以下哪种获取方式最合适为什么 OperationQueue main addOperation DispatchQueue main async 关于两种队列的区别的详细信息请
将部分 IP 地址字符串转换为 IP 地址对象

为什么System Net IpAddress允许将以下字符串转换为有效的 IP 地址吗 b ipaddress 10 10 10 b IPAddressToString 10 10 0 10 c ipaddress 10 10 c IPA
如何在服务器端发送和接收 WebSocket 消息？

如何根据协议使用 WebSocket 在服务器端发送和接收消息当我从浏览器向服务器发送数据时为什么我在服务器上得到看似随机的字节它是以某种方式编码的数据吗成帧如何在服务器客户端和客户端服务器方向上工作注意这是一些关于如何实现
Android - 重新定义从支持库中删除的类（AsyncTaskCompat）

首先如果我没有提供回答这个问题所需的所有信息我深表歉意我对 Android 开发有点陌生并且仍在了解构建工具 API 级别等因此如果我需要提供任何其他信息来帮助您请告诉我将我的Android项目编译sdk版本更新到27后我
如何使用 GitLab CI 设置 Selenium E2E 测试？

我正在为网站前端开发 Vue js 应用程序对于这个应用程序我想使用单元测试和端到端测试我用以下方式构建了我的项目vue cli https github com vuejs vue cli 据我了解 vue cli 使用 Karma
对于 python，安装 hdf5/netcdf4

在 Linux Mint 17 1 上执行此操作当我尝试时 pip install hdf5 我收到错误 Could not find a version that satisfies the requirement hdf5 from
在 Python 中对不可变字典进行哈希处理

简洁版本对于作为无序项字典实现的多重集最好的哈希算法是什么我正在尝试对作为字典实现的不可变多重集在其他语言中是一个包或多重集就像一个数学集除了它可以容纳多个元素进行散列我创建了标准库类的子类collections Count

在 Python 中对不可变字典进行哈希处理

我从评论中收集到的内容

在 Python 中对不可变字典进行哈希处理 的相关文章

随机推荐

热门标签

在 Python 中对不可变字典进行哈希处理的相关文章