我需要一种更快的方式来存储和访问大约 3GB 的数据k:v
对。在哪里k
是一个字符串或一个整数并且v
is an np.array()
可以有不同的形状。
是否有任何对象在存储和访问这样的表时比标准 python 字典更快?例如,一个pandas.DataFrame
?
据我所知,python dict 是哈希表的一个相当快的实现。对于我的具体情况,还有什么比这更好的吗?
不,对于这个任务来说,没有什么比字典更快的了,这是因为它的索引(获取和设置项目)甚至成员资格检查的复杂度平均为 O(1)。 (在 Python 文档上检查其余功能的复杂性https://wiki.python.org/moin/TimeComplexity https://wiki.python.org/moin/TimeComplexity )
将项目保存在字典中后,您可以在恒定时间内访问它们,这意味着您的性能问题不太可能与字典索引有关。话虽如此,您仍然可以通过对对象及其类型进行一些更改来稍微加快此过程,这可能会导致后台操作的一些优化。
例如如果您的字符串(键)不是很大,您可以实习查找键和字典的键。实习是将对象缓存在内存中——或者像在Python中那样,“实习”字符串表——而不是将它们创建为单独的对象。
Python 提供了一个intern() https://docs.python.org/3/library/sys.html#sys.intern内的函数sys
您可以为此使用的模块。
在“interned”字符串表中输入 string 并返回 interned 字符串 - 这是字符串本身或副本。实习字符串对于获得一点性能很有用字典查找...
also ...
如果字典中的键被保留并且查找键被保留,则可以通过指针比较来完成键比较(散列之后),而不是比较字符串值本身,从而减少对对象的访问时间。
这是一个例子:
In [49]: d = {'mystr{}'.format(i): i for i in range(30)}
In [50]: %timeit d['mystr25']
10000000 loops, best of 3: 46.9 ns per loop
In [51]: d = {sys.intern('mystr{}'.format(i)): i for i in range(30)}
In [52]: %timeit d['mystr25']
10000000 loops, best of 3: 38.8 ns per loop
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)