有没有比 dict() 更快的东西？

2023-12-21

我需要一种更快的方式来存储和访问大约 3GB 的数据k:v对。在哪里k是一个字符串或一个整数并且v is an np.array()可以有不同的形状。

是否有任何对象在存储和访问这样的表时比标准 python 字典更快？例如，一个pandas.DataFrame?

据我所知，python dict 是哈希表的一个相当快的实现。对于我的具体情况，还有什么比这更好的吗？

不，对于这个任务来说，没有什么比字典更快的了，这是因为它的索引（获取和设置项目）甚至成员资格检查的复杂度平均为 O(1)。（在 Python 文档上检查其余功能的复杂性https://wiki.python.org/moin/TimeComplexity https://wiki.python.org/moin/TimeComplexity )

将项目保存在字典中后，您可以在恒定时间内访问它们，这意味着您的性能问题不太可能与字典索引有关。话虽如此，您仍然可以通过对对象及其类型进行一些更改来稍微加快此过程，这可能会导致后台操作的一些优化。

例如如果您的字符串（键）不是很大，您可以实习查找键和字典的键。实习是将对象缓存在内存中——或者像在Python中那样，“实习”字符串表——而不是将它们创建为单独的对象。

Python 提供了一个intern() https://docs.python.org/3/library/sys.html#sys.intern内的函数sys您可以为此使用的模块。

在“interned”字符串表中输入 string 并返回 interned 字符串 - 这是字符串本身或副本。实习字符串对于获得一点性能很有用字典查找...

also ...

如果字典中的键被保留并且查找键被保留，则可以通过指针比较来完成键比较（散列之后），而不是比较字符串值本身，从而减少对对象的访问时间。

这是一个例子：

In [49]: d = {'mystr{}'.format(i): i for i in range(30)}

In [50]: %timeit d['mystr25']
10000000 loops, best of 3: 46.9 ns per loop

In [51]: d = {sys.intern('mystr{}'.format(i)): i for i in range(30)}

In [52]: %timeit d['mystr25']
10000000 loops, best of 3: 38.8 ns per loop

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

python3x

NumPy

Dictionary

pythoninternals

有没有比 dict() 更快的东西？的相关文章

将数据帧行转换为字典

我有像下面的示例数据这样的数据帧我正在尝试将数据帧中的一行转换为类似于下面所需输出的字典但是当我使用 to dict 时我得到了索引和列值有谁知道如何将行转换为像所需输出那样的字典任何提示都非常感激 Sample data pri
Argparse nargs="+" 正在吃位置参数

这是我的解析器配置的一小部分 parser add argument infile help The file to be imported type argparse FileType r default sys stdin parser
如何在 pytest 中将单元测试和集成测试分开

根据维基百科 https en wikipedia org wiki Unit testing Description和各种articles https techbeacon com devops 6 best practices inte
从零开始的 numpy 形状意味着什么

好的我发现数组的形状中可以包含 0 对于将 0 作为唯一维度的情况这对我来说是有意义的它是一个空数组 np zeros 0 但如果你有这样的情况 np zeros 0 100 让我很困惑为什么这么定义呢据我所知这只是表达空数组的
如何计算numpy数组中元素的频率？

我有一个 3 D numpy 数组其中包含重复的元素 counterTraj shape 13530 1 1 例如 counterTraj 包含这样的元素我只显示了几个元素 array 136 129 130 103 102 101 我
对图像块进行多重处理

我有一个函数必须循环遍历图像的各个像素并计算一些几何形状此函数需要很长时间才能运行在 24 兆像素图像上大约需要 5 小时但似乎应该很容易在多个内核上并行运行然而我一生都找不到一个有据可查解释充分的例子来使用 Multiproc
TensorFlow的./configure在哪里以及如何启用GPU支持？

在我的 Ubuntu 上安装 TensorFlow 时我想将 GPU 与 CUDA 结合使用但我却停在了这一步官方教程 http www tensorflow org get started os setup md 这到底是哪里 con
从 python 发起 SSH 隧道时出现问题

目标是在卫星服务器和集中式注册数据库之间建立 n 个 ssh 隧道我已经在我的服务器之间设置了公钥身份验证因此它们只需直接登录而无需密码提示怎么办我试过帕拉米科它看起来不错但仅仅建立一个基本的隧道就变得相当复杂尽管代码示例将受
如何解决使用 Spark 从 S3 重新分区大量数据时从内存中逐出缓存的表分区元数据的问题？

在尝试从 S3 重新分区数据帧时我收到一个一般错误 Caused by org apache spark SparkException Job aborted due to stage failure Task 33 in stage 1
如何从Python中的字符串中提取变量名称和值

我有一根绳子 data var1 id 12345 name John White python中有没有办法将var1提取为python变量更具体地说我对字典变量感兴趣这样我就可以获得变量的值 id和name python 这是由提供
Numpy 过滤器平滑零区域

我有一个 0 及更大整数的 2D numpy 数组其中值代表区域标签例如 array 9 9 9 0 0 0 0 1 1 1 9 9 9 9 0 7 1 1 1 1 9 9 9 9 0 2 2 1 1 1 9 9 9 8 0 2 2 1
如何设置 Celery 来调用自定义工作器初始化？

我对 Celery 很陌生我一直在尝试设置一个具有 2 个独立队列的项目一个用于计算另一个用于执行到目前为止一切都很好我的问题是执行队列中的工作人员需要实例化一个具有唯一 object id 的类每个工作人员一个 id 我想知
将 JSON 对象传递给带有请求的 url

所以我想利用 Kenneth 的优秀请求模块 https github com kennethreitz requests 在尝试使用时偶然发现了这个问题自由库API http wiki freebase com wiki API 基本上
Pandas 根据 diff 列形成簇

我正在尝试使用 Pandas 根据表示时间以秒为单位的列中的差异来消除数据框中的一些接近重复项例如 import pandas as pd numpy as np df pd DataFrame 1200 1201 1233 1555
gitlab-ci 的缓存虚拟环境

我使用 Gitlab CI 脚本缓存了 Pip 包所以这不是问题现在我还想赶上Conda虚拟环境因为它减少了设置环境的时间我缓存了一个虚拟环境不幸的是最后需要很长时间才能缓存所有 venv 文件我尝试仅缓存 CI PROJEC
python Soap zeep模块获取结果

我从 SOAP API 得到如下结果 client zeep Client wsdl self wsdl transport transport auth header lb E authenticate self login res cl
使用 PyTorch 分布式 NCCL 连接失败

我正在尝试使用 torch distributed 将 PyTorch 张量从一台机器发送到另一台机器 dist init process group 函数正常工作但是 dist broadcast 函数中出现连接失败这是我在节点 0
迭代 my_dict.keys() 并修改字典中的值是否会使迭代器失效？

我的例子是这样的 for my key in my dict keys my dict my key mutate 上述代码的行为是否已定义假设my dict是一本字典并且mutate是一个改变其对象的方法我担心的是改变字典中的值可能
tkinter - 检查文本小部件是否为空

操作系统 Windows 8 1 Python 3 5 在 Tkinter 中我发现了很多代码来验证输入框是否为空但是当我尝试对文本小部件应用相同的方法时它不起作用看起来文本小部件有一个 n 字符这可能就是问题所在知道如何进行此
列表值的意外更改

这是我的课 class variable object def init self name name alias parents values table name of the variable self name 这是有问题的函数 f

随机推荐

wp_list_comments() 不起作用

我从头开始创建了一个自定义主题没有什么花哨的简单主题我目前使用的是 WordPress 3 2 1 我把wp list comments 放在comments php中来列出评论它根本不起作用没有显示评论尝试将其放入 single
无法启动服务应用程序：OCI 运行时创建失败：container_linux.go:349

当我尝试使用 docker 启动 go 应用程序时遇到一些麻烦 ERROR for app Cannot start service app OCI runtime create failed container linux go 349
在 jquery 中使表行可点击，但表头不可点击

目前我正在使用 mytable tr click function blah blah 这使得所有行包括标题都可单击如何排除标题或 th s 使用将标题和正文分开 thead and tbody 标签并将选择器更改为 mytable
以编程方式找出谁对我们的 iPhone 应用程序给予了 5 星评级

我看到很多应用程序都说如果您给我们的应用程序评分 5 星您将获得 1000 个金币用户可以在下载的应用程序中使用这些硬币我想实现相同的功能我们如何以编程方式确定谁对我们的 iPhone 应用程序给予了 5 星评级以便我们可以在他
安装nodejs后未定义require

首先我从下载了node jslink https nodejs org en 然后我安装了browserifynpm install g browserify 然后我安装了fsnpm install fs 我收到以
将 FindBugs 配置从 Sonar 导入到 Maven

如何使用 Sonar 中的 FindBugs 配置文件作为规则集Maven FindBugs 插件 https gleclaire github io findbugs maven plugin 您可以放置您的文件即findbugs s
非常大且非常稀疏的非负矩阵分解

我有一个非常大且稀疏的矩阵 531K x 315K 单元格总数约为 1670 亿非零值仅为 1s 非零值总数约为 45K 有高效的 NMF 包来解决我的问题吗我知道有几个软件包可以实现这一点并且它们仅适用于小尺寸的数据矩阵任何想法都
WPF 将父绑定对象传递给转换器

我有 ItemsControl 绑定到 Student 类型的集合在 ItemTemplate 内部我有一个 TextBox 它使用 IValueConverter 来执行一些自定义计算和逻辑我想将实际的 Student 对象传递给值
如何使用jquery在加载时滑动整个页面

我想在更改时将整个页面向下滑动我想做到这一点的方法是创建一个垂直幻灯片在单击链接时播放并在页面加载时再次播放到目前为止我只能创建影响特定 DIV 的幻灯片我还希望它能够垂直滑入任何想法将不胜感激只需将所有内容包装在一个 di
为什么应该仅在 1 个元素张量上或使用变量的梯度来调用向后函数？

我是 pytorch 的新手我想了解为什么我们不能对包含大小为 2 2 的张量的变量调用后向函数如果我们确实想在包含大小为 2 2 的张量的变量上调用它我们必须首先定义一个梯度张量然后在包含张量 w r t 定义的梯度的变量上调用后
C# 如何使用 DataAnnotations StringLength 和 SubString 删除文本

我有一个模型类它有一个描述属性其数据注释属性为 StringLength 长度设置为 100 个字符当此属性超过 100 个字符并且实体框架尝试保存此属性时我收到以下错误 StringLength 100 ErrorMessage
SQL：条件 AND in where

我正在尝试创建一个允许省略参数的存储过程但如果提供了参数则进行 AND 操作 CREATE PROCEDURE MyProcedure LastName Varchar 30 NULL FirstName Varchar 30 NULL
Apache Commons CLI - 订购帮助选项？

我正在使用 Apache Commons CLI 默认情况下它按字母顺序对命令行上的帮助选项进行排序那么出现的就是 csv ip msisdn xml 但我想按如下方式订购它们 csv xml ip msisdn 我知道您可以使用一个
通过 Access 中的 ODBC 链接表更新 SQLite 数据库

我在使用 SQLite 数据库时遇到问题我正在使用 SQLite ODBChttp www ch werner de sqliteodbc http www ch werner de sqliteodbc 安装 64 位版本并使用以下设置
OpenERP (Odoo) 在哪里找到模块路径？

我正在使用 Odoo v 8 我想找出 Odoo 在哪里找到模块所在的信息并加载它们我知道文件 openerp server conf 中有一个变量 addons path 我找到该变量的唯一文件是 opt odoo odoo debia
Python：按索引过滤列表

在Python中我有一个元素列表aList和索引列表myIndices 有什么方法可以一次检索所有这些项目aList将以下值作为索引myIndices Example gt gt gt aList a b c d e f g gt gt g
在 JavaScript 中保存哈希/锚点更改的历史记录

我目前正在实现一个 JavaScript 库用于跟踪地址栏中哈希部分的更改历史记录这个想法是您可以在哈希部分保留一个状态然后使用后退按钮返回到之前的状态在大多数最新的浏览器中这是自动的您只需轮询location hash属性进
npm run 运行缓慢

我曾经通过 Makefile 运行各种命令但对于 Nodejs 项目来说 package json 是更合适的地方通过 npm 运行命令效果很好但与命令时间执行相比非常慢 time node modules bin jshint no
IIS 7.5 修复尝试加载格式不正确的程序问题？

我遇到一个异常问题抛出异常尝试加载格式不正确的程序错误我在同一台 IIS 服务器上有两个相同的网站我的构建配置适用于其中一个但不适用于另一个我的 C MVC 2 Web 应用程序可以部署到驻留在同一 IIS 7 5 Web 服
有没有比 dict() 更快的东西？

我需要一种更快的方式来存储和访问大约 3GB 的数据k v对在哪里k是一个字符串或一个整数并且v is an np array 可以有不同的形状是否有任何对象在存储和访问这样的表时比标准 python 字典更快例如一个pandas

有没有比 dict() 更快的东西？

有没有比 dict() 更快的东西？ 的相关文章

随机推荐

热门标签

有没有比 dict() 更快的东西？的相关文章