在 Python 中使用 glob.glob 和带有 unicode 文件名的正则表达式的独立于文件系统的方式

2024-04-27

我正在开发一个库，我想保持平台、文件系统和 Python2.x/3.x 的独立性。但是，我不知道如何以独立于平台/文件系统的方式全局查找文件并将文件名与正则表达式进行匹配。

例如。（在 Mac 上，使用 IPython、Python 2.7）：

   In[7]: from glob import glob
   In[8]: !touch 'ü-0.é' # Create the file in the current folder

   In[9]: glob(u'ü-*.é')
  Out[9]: []

   In[10]: import unicodedata as U

   In[11]: glob(U.normalize('NFD', u'ü-*.é'))
  Out[11]: [u'u\u0308-0.e\u0301']

但是，这在 Linux 或 Windows 上不起作用，我需要unicode.normalize('NFC', u'ü-*.é')。当我尝试将文件名与正则表达式匹配时，会出现同样的问题：只有 unicode 正则表达式规范化为NFD在 Mac 上匹配文件名，而只有NFC正则表达式匹配在 Linux/Windows 上读取的文件名（我使用re.UNICODE两种情况下都标记）。

有处理这个问题的标准方法吗？

我的希望是就像sys.getfilesystemencoding()返回文件系统的编码，将存在一个返回底层文件系统使用的 Unicode 规范化的函数。

然而，我既找不到这样的函数，也找不到对其进行功能测试的安全/标准方法。

Mac + HFS+使用 NFD 标准化：https://apple.stackexchange.com/a/10484 https://apple.stackexchange.com/a/10484

Linux + Windows 使用 NFC 标准化：http://qerub.se/filenames-and-unicode-normalization-forms http://qerub.se/filenames-and-unicode-normalization-forms

代码链接：https://github.com/musically-ut/seqfile/blob/feat-unicode/seqfile/seqfile.py https://github.com/musically-ut/seqfile/blob/feat-unicode/seqfile/seqfile.py

我假设你想匹配 unicode相等的 http://en.wikipedia.org/wiki/Unicode_equivalence文件名，例如您期望的输入模式为u'\xE9*'匹配两个文件名u'\xE9qui' and u'e\u0301qui'在任何操作系统上，即字符级模式匹配。

你必须明白，这不是 Linux 上的默认设置，在 Linux 中，字节被视为字节，并且并非每个文件名都是当前系统编码中的有效 unicode 字符串（尽管 Python 3 使用 'surrogateescape' 错误处理程序将它们表示为str反正）。

考虑到这一点，这是我的解决方案：

def myglob(pattern, directory=u'.'):
    pattern = unicodedata.normalize('NFC', pattern)
    results = []
    enc = sys.getfilesystemencoding()
    for name in os.listdir(directory):
        if isinstance(name, bytes):
            try:
                name = name.decode(enc)
            except UnicodeDecodeError:
                # Filenames that are not proper unicode won't match any pattern
                continue
        if fnmatch.filter([unicodedata.normalize('NFC', name)], pattern):
            results.append(name)
    return results

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

在 Python 中使用 glob.glob 和带有 unicode 文件名的正则表达式的独立于文件系统的方式的相关文章

为什么在连接两个字符串时 Python 比 C 更快？

目前我想比较 Python 和 C 用来处理字符串的速度我认为 C 应该比 Python 提供更好的性能然而我得到了完全相反的结果这是 C 程序 include
雅虎财务请求功能出现 404 客户端错误

yahoo Financials的请求功能出现404 Client Error 直接点击以下网址没有问题 https finance yahoo com quote AAPL financials p AAPL https finance
带有 mkdocs 的本地 mathjax

我想在无法访问互联网的计算机上使用 MathJax 和 Mkdocs 因此我不能只调用 Mathjax CDN Config mkdocs yml site name My Docs extra javascript javascripts
在linux上安装python ssl模块，无需重新编译

是否可以在已经安装了 OpenSSL 的 Linux 机器上安装 python 的 SSL 模块而无需重新编译 python 我希望它就像复制几个文件并将它们包含在库路径中一样简单 Python版本是2 4 3 谢谢是否可以在已经安装了
如何从hdfs读取文件[重复]

这个问题在这里已经有答案了我在 project1目录下的hadoop文件系统中有一个文本文件名mr txt 我需要编写 python 代码来读取文本文件的第一行而不将 mr txt 文件下载到本地但我无法从 hdfs 打开 mr tx
Py2exe - Pmw WindowsError：[错误 3]

我正在尝试使用 Py2exe 构建独立的可执行文件我已经导入了 Pmw 类当我运行独立可执行文件时出现以下错误 Traceback most recent call last File py line 9 in
使用 subprocess.Popen() 或 subprocess.check_call() 时程序卡住

我想从 python 运行一个程序并找到它的内存使用情况为此我正在使用 l a out lt in txt gt out txt p subprocess Popen l shell False stdout subprocess PI
将 window.location 传递给 Flask url_for

我正在使用 python 在我的页面上当匿名用户转到登录页面时我想将一个变量传递到后端以便它指示用户来自哪里发送 URL 因此当用户单击此锚链接时 a href Sign in a 我想发送用户当前所在页面的当前 URL
通过 Python 循环浏览网络上的目录并显示其内容（文件和其他目录）

同样的道理在Python中处理从源目录到目标目录的一组文件 https stackoverflow com questions 2593399 process a set of files from a source directory t
使用 Python 绘制 USGS 水文数据甘特图？

我编译了一个数据帧其中包含几个不同流计的 USGS 流数据现在我想创建一个类似的甘特图this https stackoverflow com questions 31820578 how to plot stacked event d
Python-验证我的文档 xls 中是否存在工作表

我正在尝试在空闲时间设计一个小程序加载 xls 文件然后在要扫描的文档中选择一张纸步骤1 用户导入 xls文件导入程序后检查文件是否存在我能做到的第 2 步我要求用户提供要分析的文档表 xls 的名称这就是它停止的地方该程
使用 if 语句的网格网格和用户定义函数的真值不明确

假设我有一个函数f x y 足够光滑然而有些值仅在有限的意义上存在以sin x x的价值x 0只存在于极限 x gt 0 中在一般情况下我用一个来处理这个问题if陈述如果我在情节中使用它meshgrid我收到一条错误消息 Val
Django 2、python 3.4 无法解码 urlsafe_base64_decode(uidb64)

我正在尝试通过电子邮件激活用户电子邮件有效编码有效我使用了 django1 11 中的方法该方法运行成功在 Django 1 11 中以下内容成功解码为 28 其中 uidb64 b Mjg force text urlsafe
为什么 Collections.counter 这么慢？

我正在尝试解决罗莎琳德的基本问题即计算给定序列中的核苷酸并在列表中返回结果对于那些不熟悉生物信息学的人来说它只是计算字符串中 4 个不同字符 A C G T 出现的次数我期望collections Counter是最快的方法首先
从迭代器外部将 StopIteration 发送到 for 循环

有几种方法可以打破一些嵌套循环他们是 1 使用中断继续 for x in xrange 10 for y in xrange 10 print x y if x y gt 50 break else continue only exec
Python 2.7 缩进错误[关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案这个问题是由拼写错误或无法再重现的问题引起的虽然类似的问题可能是on topic help on topic在这里这个问题的解决方式不
如何展平解析树并存储在字符串中以进行进一步的字符串操作 python nltk

我正在尝试从树结构中获取扁平树如下所示我想将整个树放在一个字符串中就像没有检测到坏树错误一样 S NP SBJ NP DT The JJ high JJ seven day PP IN of NP DT the CD 400 NNS
如何为 Imagus 悬停缩放扩展开发自定义过滤器？

当我读到关于悬停缩放是邪恶的 http www reddit com r YouShouldKnow comments 1wjrc8 ysk that the hover zoom extension is spyware 哎呀有两篇文章
如何使用 enumerate 来倒数？

letters a b c 假设这是我的清单在哪里for i letter in enumerate letters 将会 0 a 1 b 2 c 我怎样才能让它向后枚举如 2 a 1 b 0 c 这是一个很好的解决方案并且工作完美 i
基于值的 matplotlib 条形图颜色

有没有一种方法可以根据条形图的值对条形图的条形进行着色例如 values below 0 5 red values between 0 5 to 0 green values between 0 to 08 blue etc 我找到了一些

随机推荐

使用 'with' 时 Laravel ownsTo 返回 null

我刚刚开始使用 Laravel 所以请原谅任何菜鸟我有一个User and Order模型中一个用户有多个订单 Inside User model public function orders this gt hasMany Order
通过 requests 模块发送 JSON 并使用 Bottle.py 和cherrypy 捕获它

我有一个服务器需要能够接受 JSON 然后处理它然后发回 JSON 我的服务器端的代码正在使用Bottle py 与cherrypy 所关注的路线如下 route tagTweets method POST def tagTweets r
System.Windows.Application.GetResourceStream 返回 null

如果我调试一个以 Catalog xaml 作为内容的 WPF 应用程序我无法获取它的资源流 GetResourceStream 返回 null var uri new Uri Assembly component Catalog xam
如何从 Flask 调用另一个 Web 服务 api

我在 Flask 服务器中使用重定向来调用另一个 Web 服务 api e g app route hello def hello return redirect http google com 网址逻辑上会更改为 google com 但
如何在 psql 中使用数组包含值子句进行选择

我有专栏arr这是类型array 我需要获取行在哪里arr列包含值s 这个查询 SELECT FROM table WHERE arr gt ARRAY s 给出错误错误运算符不存在字符变化 gt 文本为什么它不起作用附注我知道
只响应第一个 WM_KEYDOWN 通知？

Win32 应用程序如何仅响应第一个 WM KEYDOWN 通知 MSDN 文档声称第 30 位指定先前的按键状态如果在发送消息之前按键处于按下状态则该值为 1 如果按键处于按下状态则该值为 0 但在我的 WndProc 中第 3
在 shell 中将 ANSI 转换为 UTF-8

我正在制作一个解析器 1 csv 到 3 csv 脚本但遇到问题我是法国人所以用我的语言我有这样的字母一位客户向我发送了一个 csv 文件 Linux 将其识别为 unknown 8bit 我猜是 ansi 在我的脚本中我正在编写
格式化文本文件，解析完成后如何更新文件？

如何打开文件对文件执行一些正则表达式然后保存文件我知道我可以打开一个文件逐行读取但是如何更新文件的实际内容然后保存文件无论文件大小如何以下方法都可以工作并且如果操作在完成之前失败也不会损坏原始文件 string input
计算向量中连续 1 和 0 的数量

在 Matlab 中我有一个如下所示的向量 0 0 1 1 0 0 0 1 1 0 0 0 0 1 1 1 0 0 0 0 1 0 1 我现在要做的是统计这个向量中1的个数连续的 1 算作 1 此外我还想计算 1 之间 0 的平均值和中
CTYPE_ALNUM 的奇怪之处

我的 PHP 函数 CTYPE ALNUM 有一个奇怪的问题 if i do PHP words if ctype alnum words Echo Don t work else Echo Work 这将回显工作但是如果我有一个表格
导入图标动态反应 fontawesome

我在 React js 项目中使用 FontawesomeIcon 图标的名称来自数据库我想动态地从 fortawesome free solid svg icons 导入来自数据库的图标 import React Component f
jQuery 替换 href 值但仅部分替换？ [复制]

这个问题在这里已经有答案了可能的重复使用 jQuery 更改 href 参数 https stackoverflow com questions 6540106 change href parameter using jquery 我有
当 MATLAB 发生错误时如何继续循环？

我正在使用函数将一些 dat 文件转换为 mat 文件我在循环内调用此函数来转换多个文件在某些情况下我的 dat 文件已损坏函数无法转换并发生错误从而停止循环现在我的问题是是否有任何命令当错误发生时它应该跳过循环中的当前
在 Three.js 中将贝塞尔曲线转换为平面道路

我试图根据之前计算得到的一些贝塞尔曲线在 Three js 中绘制一条弯曲的道路问题是我找不到转换曲线序列的方法一条从上一条曲线的末尾开始到一个曲面我有一个 3D 场景其中有一些汽车一条用飞机创建的道路并且绘制了即将到来的道路
如何在 Qt 5 中写入和读取 QResource 文件？

很奇怪我通过以下方式将所需的文件添加到资源中添加现有文件文件就在那里我运行 qmake 构建 gt 运行 qmake 以使文件可用第一期我无法从输出终端向文件写入任何内容但是当我手动写入文件时每次运行它时输出终端都会显示更改
如何使 QTreeWidget 中的特定列成为整数/浮点数，以便用户无法输入任何字母或符号而不是整数/浮点数？

我正在 PyQt5 中使用 QTreeWidget 制作 GUI 我希望特定列仅是整数列用户不应该能够在其中输入任何非整数项我看到了一些使用 QVariant 的方法但它似乎不能满足我的要求这就是我的found https stac
如何获取 App Engine 前端服务器的实例 ID？

有没有办法直接向该服务器发送请求实际上有一种方法它可以将新数据推送到应用程序的所有实例 from google appengine api import modules instance id modules get current i
以编程方式更改工具栏中的菜单图标颜色

我开发了一个应用程序用户可以在其中更改主题我有一个导航视图工具栏中有一个黑色的菜单图标我想更改该图标将其设置为白色在黑色主题上我尝试了这段代码但它仍然是黑色的 myToolbar setTitleTextColor Colo
如何在Python中访问超类的类属性？

看一下下面的代码 class A object defaults a 1 def getattr self name print A getattr return self get default name classmethod def
在 Python 中使用 glob.glob 和带有 unicode 文件名的正则表达式的独立于文件系统的方式

我正在开发一个库我想保持平台文件系统和 Python2 x 3 x 的独立性但是我不知道如何以独立于平台文件系统的方式全局查找文件并将文件名与正则表达式进行匹配例如在 Mac 上使用 IPython Python 2 7 I

在 Python 中使用 glob.glob 和带有 unicode 文件名的正则表达式的独立于文件系统的方式

在 Python 中使用 glob.glob 和带有 unicode 文件名的正则表达式的独立于文件系统的方式 的相关文章

随机推荐

热门标签

在 Python 中使用 glob.glob 和带有 unicode 文件名的正则表达式的独立于文件系统的方式的相关文章