Python 中的持久记忆

2023-12-27

我有一个昂贵的函数，它接受并返回少量数据（一些整数和浮点数）。我已经memoized http://en.wikipedia.org/wiki/Memoization这个功能，但我想让备忘录持久化。已经有几个与此相关的线程，但我不确定某些建议方法的潜在问题，并且我有一些相当具体的要求：

我肯定会同时使用多个线程和进程的函数（都使用multiprocessing以及来自单独的 python 脚本）
我不需要从这个 python 函数外部读取或写入备忘录
我并不担心备忘录在极少数情况下会被损坏（例如拔掉插头或意外写入文件而不锁定它），因为它不是that重建成本高昂（通常需要 10-20 分钟），但我希望它不会因为异常而损坏，或者手动终止 python 进程（我不知道这有多现实）
我强烈喜欢不需要大型外部库的解决方案，因为我将在一台机器上运行代码，其硬盘空间非常有限
我对跨平台代码的偏好较弱，但我可能只会在 Linux 上使用它

这个线程 https://stackoverflow.com/questions/486490/python-shelve-module-question讨论了shelve模块，这显然不是进程安全的。其中两个答案建议使用fcntl.flock锁定搁置文件。中的一些回复这个线程 https://stackoverflow.com/questions/489861/locking-a-file-in-python然而，似乎表明这充满了问题 - 但我不太确定它们是什么。听起来好像这仅限于 Unix（尽管显然 Windows 有一个等效的称为msvcrt.locking），并且锁定只是“建议” - 即，它不会阻止我在不检查文件是否已锁定的情况下意外写入文件。还有其他潜在的问题吗？写入文件的副本并作为最后一步替换主副本是否可以降低损坏的风险？

看起来不像数据库模块 http://docs.python.org/py3k/library/dbm.html会比搁置更好。我快速浏览了一下sqlite3 http://docs.python.org/library/sqlite3.html，但为了这个目的似乎有点矫枉过正。这个线程 https://stackoverflow.com/questions/1235594/comparing-persistent-storage-solutions-in-python and this one https://stackoverflow.com/questions/8428103/is-there-an-established-memoize-on-disk-decorator-for-python提到几个第三方库，包括ZODB http://www.zodb.org/index.html，但是有很多选择，对于这个任务来说，它们都显得过于庞大和复杂。

有人有建议吗？

UPDATE：下面提到了 IncPy，它看起来确实很有趣。不幸的是，我不想回到Python 2.6（我实际上使用的是3.2），而且看起来与C库一起使用有点尴尬（我大量使用numpy和scipy等）。

kindall 的另一个想法很有启发性，但我认为将其适应多个进程会有点困难 - 我认为用文件锁定或数据库替换队列是最简单的。

再次查看 ZODB，它看起来确实非常适合该任务，但我确实想避免使用任何其他库。我仍然不完全确定简单使用会出现什么问题flock是 - 我想一个大问题是进程是否在写入文件时或释放锁之前终止？

所以，我采纳了synthesizerpatel的建议并选择了sqlite3。如果有人感兴趣，我决定做一个直接替代品dict它将其条目作为泡菜存储在数据库中（我不需要在内存中保留任何内容，因为数据库访问和泡菜与我正在做的其他事情相比已经足够快了）。我确信有更有效的方法可以做到这一点（并且我不知道我是否仍然存在并发问题），但这里是代码：

from collections import MutableMapping
import sqlite3
import pickle


class PersistentDict(MutableMapping):
    def __init__(self, dbpath, iterable=None, **kwargs):
        self.dbpath = dbpath
        with self.get_connection() as connection:
            cursor = connection.cursor()
            cursor.execute(
                'create table if not exists memo '
                '(key blob primary key not null, value blob not null)'
            )
        if iterable is not None:
            self.update(iterable)
        self.update(kwargs)

    def encode(self, obj):
        return pickle.dumps(obj)

    def decode(self, blob):
        return pickle.loads(blob)

    def get_connection(self):
        return sqlite3.connect(self.dbpath)

    def  __getitem__(self, key):
        key = self.encode(key)
        with self.get_connection() as connection:
            cursor = connection.cursor()
            cursor.execute(
                'select value from memo where key=?',
                (key,)
            )
            value = cursor.fetchone()
        if value is None:
            raise KeyError(key)
        return self.decode(value[0])

    def __setitem__(self, key, value):
        key = self.encode(key)
        value = self.encode(value)
        with self.get_connection() as connection:
            cursor = connection.cursor()
            cursor.execute(
                'insert or replace into memo values (?, ?)',
                (key, value)
            )

    def __delitem__(self, key):
        key = self.encode(key)
        with self.get_connection() as connection:
            cursor = connection.cursor()
            cursor.execute(
                'select count(*) from memo where key=?',
                (key,)
            )
            if cursor.fetchone()[0] == 0:
                raise KeyError(key)
            cursor.execute(
                'delete from memo where key=?',
                (key,)
            )

    def __iter__(self):
        with self.get_connection() as connection:
            cursor = connection.cursor()
            cursor.execute(
                'select key from memo'
            )
            records = cursor.fetchall()
        for r in records:
            yield self.decode(r[0])

    def __len__(self):
        with self.get_connection() as connection:
            cursor = connection.cursor()
            cursor.execute(
                'select count(*) from memo'
            )
            return cursor.fetchone()[0]

sqlite3 开箱即用提供ACID http://en.wikipedia.org/wiki/ACID。文件锁定很容易出现竞争条件和并发问题，而使用 sqlite3 则不会出现这些问题。

基本上，是的，sqlite3 超出了您的需要，但它并不是一个巨大的负担。它可以在手机上运行，所以这并不像你承诺运行一些糟糕的软件。它将节省您重新发明轮子和调试锁定问题的时间。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Python 中的持久记忆的相关文章

在 Python 2.7 中出现“ImportError：无法导入名称 HTTPSConnection”错误

我正在尝试在 AWS ElasticBeanstalk 中部署 django 当我按照所示步骤操作时here http docs aws amazon com elasticbeanstalk latest dg create deploy
如何在 Debian 上的 virtualenv 中安装 numpy？

注参见这另一篇文章 https stackoverflow com questions 6442754 how to install h5py numpylibhdf5 as non root on a debian linux syst
如何（重新）命名 pandas 数据框中的空列标题而不导出到 csv

我有一个熊猫数据框df1带有一个索引列和一系列未命名的值我想为未命名的系列指定一个名称到目前为止我知道的唯一方法是导出到df1 csv using df1 to csv df1 csv header Signal 然后使用以下命令重新
str.translate 与 str.replace - 何时使用哪一个？

何时以及为什么使用前者而不是后者反之亦然目前尚不完全清楚为什么有些人使用前者以及为什么有些人使用后者它们有不同的目的 translate只能用任意字符串替换单个字符但一次调用可以执行多次替换它的参数是一个特殊的表它将单个字符映射
通过 python 中的另外两个修改数组[重复]

这个问题在这里已经有答案了假设我们有三个一维数组 A 长度为 5 B 长度相同示例中为5 C 更长比如长度为 100 C最初用零填充 A给出索引C应更改的元素它们可能会重复以及B给出应添加到初始零的值C 例如如果A 1 3 3
为什么在连接两个字符串时 Python 比 C 更快？

目前我想比较 Python 和 C 用来处理字符串的速度我认为 C 应该比 Python 提供更好的性能然而我得到了完全相反的结果这是 C 程序 include
使用 NumPy 编写一个函数来计算具有特定公差的积分

我想编写一个自定义函数来以特定容差对表达式 python 或 lambda 函数进行数字积分我知道与scipy integrate quad人们可以简单地改变epsabs但我想使用 numpy 自己编写该函数 From 这篇博文 htt
如何在Windows中的Python 3.9下pip安装pickle？

我需要pickle https docs python org 3 9 library pickle html module pickle包安装在我的下面Python 3 9在 Windows 10 下我尝试过的当尝试与pip inst
无法在 virtualenv 中安装 libxml2

我有一个问题libxml2蟒蛇模块我正在尝试将其安装在python3 虚拟环境使用以下命令 pip install libxml2 python3 但它显示以下错误 Collecting libxml2 python3 Using cac
使用pathlib获取主目录

翻看新的pathlib在 Python 3 4 中我注意到没有任何简单的方法来获取用户的主目录我能想到的获取用户主目录的唯一方法是使用旧的os path像这样的库 import pathlib from os import path p
正在使用 PIL 保存损坏的图像

我遇到一个问题操作图像像素导致保存损坏的图像因此我使用 PIL 打开图像然后将其转换为 NumPy 数组 image Image open myimage png np image np asarray image 然后我转置图像
Python-验证我的文档 xls 中是否存在工作表

我正在尝试在空闲时间设计一个小程序加载 xls 文件然后在要扫描的文档中选择一张纸步骤1 用户导入 xls文件导入程序后检查文件是否存在我能做到的第 2 步我要求用户提供要分析的文档表 xls 的名称这就是它停止的地方该程
使用 if 语句的网格网格和用户定义函数的真值不明确

假设我有一个函数f x y 足够光滑然而有些值仅在有限的意义上存在以sin x x的价值x 0只存在于极限 x gt 0 中在一般情况下我用一个来处理这个问题if陈述如果我在情节中使用它meshgrid我收到一条错误消息 Val
如何获取分类数据的分组条形图

I have a big dataset with information about students And I have to build a graph of dependencies between different value
如何通过 Python Requests 库使用基本 HTTP 身份验证？

我正在尝试在 Python 中使用基本的 HTTP 身份验证我正在使用Requests https docs python requests org 图书馆 auth requests post http hostname auth HT
如何展平解析树并存储在字符串中以进行进一步的字符串操作 python nltk

我正在尝试从树结构中获取扁平树如下所示我想将整个树放在一个字符串中就像没有检测到坏树错误一样 S NP SBJ NP DT The JJ high JJ seven day PP IN of NP DT the CD 400 NNS
UnicodeDecodeError：部署到 Heroku 时，“utf-8”编解码器无法解码位置 0 中的字节 0xff

我尝试在heroku上部署我的简单django项目但我不明白如何解决这个问题这是git push heroku master remote Traceback most recent call last remote File tmp
如何使用 enumerate 来倒数？

letters a b c 假设这是我的清单在哪里for i letter in enumerate letters 将会 0 a 1 b 2 c 我怎样才能让它向后枚举如 2 a 1 b 0 c 这是一个很好的解决方案并且工作完美 i
使用 MPI 的 Allreduce 对 Python 对象求和

我正在使用使用 Python 中的字典和计数器构建的稀疏张量数组操作我想让并行使用这个数组操作成为可能最重要的是我最终在每个节点上都有计数器我想使用 MPI Allreduce 或另一个不错的解决方案将其添加在一起例如使用计数
如何同时接受int和float类型的输入？

我正在制作一个货币转换器如何让 python 同时接受整数和浮点数我就是这样做的 def aud brl amount From to ER 0 42108 if amount int if From strip aud and to

随机推荐

有没有javascript的统计库？ [关闭]

Closed 此问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案我需要在 javascript 上实现一些统计测试例如 T 测试 Anova 和 Wilcoxon 与
URI.unescape 在尝试将“%C3%9Fą”转换为“ßą”时崩溃

我在用URI unescape http ruby doc org stdlib 1 9 3 libdoc uri rdoc URI Escape html method i unescape要取消转义文本不幸的是我遇到了奇怪的错误 en
Keycloak - 多重/2FA 因素 - OTP - 二维码 - 自定义登录屏幕 - Rest API

I have 我自己的登录页面用户在其中输入用户名密码该用户名密码用于通过 Keycloak Rest API 登录 http localhost 8080 auth realms Demo protocol openid conn
SQL代理作业：确定它已经运行了多长时间

场景某些 SQL 代理作业计划全天每隔几分钟运行一次在某些情况下它会错过下一个时间表因为它仍在按照上一个时间表运行有时工作可能会挂起这不会产生失败因为作业尚未停止发生这种情况时可以手动停止该作业并在下次运行时正常工作
React 如何在调用 onSubmit 时绑定到组件

在我的组件中我尝试调用组件的handleChange 和handleSubmit 函数如果我像这样渲染表格示例 https facebook github io react docs forms html
JQuery如何从href标签中提取值？

我是 JQuery 新手如果我有以下标签最好的 JQuery 方法是什么从 href 中提取 page 的值 a href Search Advanced page 2 2 a Malcolm 我首先想到的是单行正则表达式 var p
如何为来自同一链接的页面添加规范标签？

我正在使用 symfony 1 0 6 在我的网站中我有两个 URL http newe4s com news articles view 033 job news and information and http newe4s com
从 DropdownButtonFormField 中删除下划线

如何从 DropdownButtonFormField 中删除下划线检查下面的照片我尝试了 InputDecortaion 的各种选项组合但找不到任何方法 SizedBox width 100 0 child DropdownButt
get/set 已被弃用，取而代之的是 config 命令

在命令行中使用 angular cli 我执行了 ng set defaults styleExt styl 将默认样式设置为 Stylus 我得到了以下响应 get set 已被弃用取而代之的是 config 命令我想更改现有项目的样
Prolog递归过程解释

如果可能的话我希望有人解释这个过程来自立即学习序言一书它需要两个数字并将它们加在一起 add 0 Y Y add s X Y s Z add X Y Z 原则上我明白但我有一些问题假设我发出查询 add s s 0 s 0 R
寻找一种有效的方法或算法来检查文件是否属于某个文件夹路径列表中的某个项目

我有一个文件夹路径列表此列表中可能有许多数十个甚至数百个文件夹路径例如 C Program Files 7 Zip many directories under C Program Files C ProgramData Adobe
通过 microsoft webtest 上传文件

我有一个 webtest 我打算用它来加载测试将文件上传到网站我正在使用 Visual Studio 中内置的 WebTest 框架目的是从 Azure 运行更大规模的测试我创建了一个新的网络测试并记录了步骤包括文件上传这一切都记
在哪里可以找到特定 Git 提交的快照？

我了解到 Git 为每次提交保留一个快照快照本质上是copies of changed文件和一些references to unchanged files 所有Git相关数据都存储在 git存储库目录内的目录 duong2179 mbpr
weakhashmap是如何工作的？ [复制]

这个问题在这里已经有答案了就像weakhashmap如何理解对其键之一的引用现在已经过时一样尤其是如果键是池化的字符串的话您不能将字符串文字与 WeakHashMap 一起使用当然可以但这样做没有意义 String myKey s
如何在 Swift 中的泛型扩展中使用带有可选类方法的协议？

我正在尝试使用类方法对现有类进行扩展例如 objc public protocol MyProtocol optional class func foo gt Int 我在扩展中使用这个协议通用如下 extension MyClass
如果会话超时，MVC 中的 jquery ajax 调用后如何重定向到新页面？

1 我有一个调用操作的Ajax链接该操作返回一个视图该视图在特定的Div中打开将其视为使用相应视图更新div的菜单 2 如果会话超时则返回我的登录视图因此如果我单击链接并且会话超时登录视图将在 div 中打开而不是在整个页面
每天执行一次查询

基本上我有一个MySQL数据库其中有一个表存储我网站用户的请求我想自动执行一个查询删除所有已完成的请求已完成意味着该列Status 3 根据该列超过 180 天ArchivingDate My Requests table Req
六个月内保留的参与者百分比

我是一名学校老师对 MS SQL Server 非常陌生每个人都建议尝试一下这个网站开始我正在尝试编写查询来测试参与学术项目的不同类型的结果衡量标准我想尝试几种不同的方法来计算这个结果测量我试图计算的结果是在该计划的六个月内保
如何在不同的计算机上克隆 RStudio 环境

我最近一直在加快使用 R 的速度并且想知道最有效的方法是将 RStudio 环境尤其是软件包安装从一台计算机克隆到另一台计算机我希望能够从台式机切换到笔记本电脑但我在工作时经常向台式机添加软件包并且希望有一种简单的方法来确保在笔
Python 中的持久记忆

我有一个昂贵的函数它接受并返回少量数据一些整数和浮点数我已经memoized http en wikipedia org wiki Memoization这个功能但我想让备忘录持久化已经有几个与此相关的线程但我不确定某些建议方法

Python 中的持久记忆

Python 中的持久记忆 的相关文章

随机推荐

热门标签

Python 中的持久记忆的相关文章