使用 mmap 将正则表达式应用于整个文件

2024-06-11

我正在尝试使用以下代码将正则表达式应用于整个文件（不仅仅是每一行）：

import mmap, re

ifile = open(ifilename)
data = mmap.mmap(ifile.fileno(), 0)
print data
mo = re.search('error: (.*)', data)
if mo:
    print "found error"

这是基于问题的答案如何重新搜索或重新匹配整个文件而不将其全部读入内存？ https://stackoverflow.com/questions/454456/how-do-i-re-search-or-re-match-on-a-whole-file-without-reading-it-all-into-memor

但我收到以下错误：

Traceback (most recent call last):
  File "./myscript.py", line 29, in ?
    mo = re.search('error: (.*)', data)
  File "/usr/lib/python2.3/sre.py", line 137, in search
    return _compile(pattern, flags).search(string)
TypeError: expected string or buffer

我该如何解决这个问题？

在问题中匹配文件对象中的多行正则表达式 https://stackoverflow.com/questions/2433648/match-multiline-regex-in-file-object，我发现读取整个文件的另一种可能性如下，而不是 mmap 对象：

data = open("data.txt").read()

有任何理由选择mmap而不是简单的缓冲区/字符串？

你确实有两个问题埋在这里。

您的技术问题

如果您升级到较新版本的 Python，您面临的问题很可能会得到解决，或者您至少应该获得更好的回溯。这映射文档 https://docs.python.org/2/library/mmap.html#module-mmap指定您需要打开一个文件进行更新以 mmap 它，但您当前没有这样做。

ifile = open(ifilename) # default is to open as read

应该是这样的：

ifile = open(ifilename, 'r+')

或者，如果您可以像您在评论中提到的那样更新到 Python 2.6，

with open(ifilename, 'r+') as fi:
    # do stuff with open file

如果您没有在 2.7 上打开具有写入权限的文件并尝试 mmap 它，则会引发“权限被拒绝”异常。我怀疑 2.3 中没有实现该错误，因此现在允许您继续使用无效的 mmap 对象，当您尝试使用正则表达式搜索该对象时，该对象会失败。

mmap 与 open().read()

最后，您将能够使用这两种方法做（几乎）相同的事情。re.search(pattern, mmap_or_long_string)将搜索您的内存映射文件或由read() call.

两种方法之间的主要区别在于虚拟内存与实内存消耗。在内存映射文件中，文件保留在磁盘上（或任何位置），您可以通过虚拟内存地址直接访问它。当您使用以下方式读取文件时read()，您将整个文件一次性放入（真实）内存中。

为什么选择其中之一：

文件大小
您可以映射的文件大小的最重要限制是虚拟内存地址空间的大小，这由您的 CPU（32 或 64 位）决定。不过，分配的内存必须是连续的，因此如果操作系统找不到足够大的块来分配内存，则可能会出现分配错误。使用时read()，另一方面，您的限制是可用的物理内存。如果您访问的文件大于可用内存并且无法读取单独的行，请考虑使用 mmap。
进程间文件共享
如果要并行化大文件上的只读操作，则可以将其映射到内存中以在进程之间共享它，而不是每个进程读取整个文件的副本。
可读性/熟悉度
很多人都熟悉简单的open() and read()函数比内存映射更重要。除非您有令人信服的理由使用 mmap，否则从长远来看，坚持使用基本 IO 函数可能会更好地实现可维护性。
Speed
这个是洗的。很多论坛和帖子喜欢谈论 mmap 速度（因为一旦文件映射，它就会绕过一些系统调用），但底层机制仍然是访问磁盘，而读取整个文件时会将所有内容都放入内存中，并且只执行磁盘操作在处理文件的开始和结束时访问。如果您尝试考虑缓存（硬盘和 CPU）、内存分页和文件访问模式，就会出现无限的复杂性。坚持使用经过验证的真实分析方法要容易得多。你will根据您的个人用例和文件访问模式查看不同的结果，因此对两者进行分析并查看哪一个对您来说更快。

其他资源

很好地总结了差异 http://www.pythoncentral.io/memory-mapped-mmap-file-support-in-python/
PyMOTW http://pymotw.com/2/mmap/
一个很好的问题 https://stackoverflow.com/q/1661986/2615940
维基百科虚拟内存文章 http://en.wikipedia.org/wiki/Virtual_memory

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

regex