如何将 Python 中的所有 unicode 小写字符与正则表达式匹配？

2024-02-29

我正在尝试编写一个与 Python 3 中的 Unicode 小写字符匹配的正则表达式。我正在使用re图书馆。例如，re.findall(some_pattern, 'u∏ñKθ')应该返回['u', 'ñ', 'θ'].

在 Sublime Text 中，我只需输入[[:lower:]]来找到这些字符。

我知道Python可以匹配任何Unicode字符re.compile('[^\W\d_]')，但我特别需要区分大写和小写。我也知道re.compile('[a-z]')会匹配任何 ASCII 小写字符，但我的数据是 UTF-8，并且它包含许多非 ASCII 字符 - 我检查过。

Python 3 中的正则表达式可以实现这一点吗？还是我需要采取替代方法？我知道其他方法可以做到这一点。我只是希望使用正则表达式。

您可以使用正则表达式模块 https://pypi.org/project/regex/支持 POSIX 字符类：

import regex 

>>> regex.findall('[[:lower:]]', 'u∏ñKθ')
['u', 'ñ', 'θ']

或者，使用Unicode 类别类 https://www.regular-expressions.info/unicode.html of \p{Ll} or \p{Lowercase_Letter}:

>>> regex.findall(r'\p{Ll}', 'u∏ñKθ')
['u', 'ñ', 'θ']

或者只使用 Python 的字符串逻辑：

>>> [c for c in 'u∏ñKθ' if c.islower()]
['u', 'ñ', 'θ']

无论哪种情况，都要小心这样的字符串：

>>> s2='\u0061\u0300\u00E0'
>>> s2
'àà'

首先grapheme https://unicode.org/glossary/#grapheme 'à'是一个结果'a'具有组合特征'̀'第二个在哪里'à'是该特定代码点的结果。如果您在这里使用字符类，它将匹配'a'而不是组合重音：

>>> regex.findall('[[:lower:]]', s2)
['a', 'à']
>>> [c for c in s2 if c.islower()]
['a', 'à']

为了解决这个问题，您需要用更复杂的正则表达式模式来解决这个问题，或者规范化字符串 https://stackoverflow.com/questions/16467479/normalizing-unicode:

>>> regex.findall('[[:lower:]]', unicodedata.normalize('NFC',s2))
['à', 'à']

或按字素循环：

>>> [c for c in regex.findall(r'\X', s2) if c.islower()]
['à', 'à']

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

如何将 Python 中的所有 unicode 小写字符与正则表达式匹配？的相关文章

如何用 python 和 sympy 解决多元不等式？

我对使用 python 和 Sympy 还很陌生并且遇到了使用 sympy 解决多元不等式的问题假设我的文件中有很多函数如下所示 cst sqrt x 2 cst exp sqrt cst x 1 4 log log sqrt cst
在 python-docx 中搜索和替换

我有一个包含以下字符串的文档模板你好我的名字是鲍勃鲍勃是一个很好的名字我想使用 python docx 打开此文档并使用查找和替换方法如果存在来更改每个字符串 Bob gt Mark 最后我想生成一个新文档其中包含字符
无法包含外部 pandas 文档 Pycharm v--2018.1.2

我无法包含外部 pandas 文档Pycharm v 2018 1 2 例如 numpy gt http docs scipy org doc numpy reference generated module name element na
Python：当前目录是否自动包含在路径中？

Python 3 4 通过阅读其他一些 SO 问题似乎如果moduleName py文件位于当前目录之外如果要导入它必须将其添加到路径中sys path insert 0 path to application app folder
VSCode pytest 测试发现失败

Pytest 测试发现失败用户界面指出 Test discovery error please check the configuration settings for the tests 输出窗口显示 Test Discovery fa
如何在 Windows 上使用 Python 3.6 来安装 Python 2.7

我想问一下如何使用pip install对于 Python 2 7 当我之前安装并使用 Python 3 6 时我现在必须使用 Windows 上的 Python 版本 pip install 继续安装 Python 3 6 我需要使用以
使用 genfromtxt 导入 numpy 中缺失值的 csv 数据

我有一个 csv 文件看起来像这样实际文件有更多的列和行 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 假设文件的名称是info csv如果我尝试使用导入它 data numpy genfromtxt i
使用Python将图像转换为十六进制格式

我的下面有一个jpg文件tmp folder upload path tmp resized test jpg 我一直在使用下面的代码 Method 1 with open upload path rb as image file enco
在wxpython中使用wx.TextCtrl并在按钮单击后显示数据的简单示例 - wx新手

我正在学习 python 并尝试使用 wxpython 进行 UI 开发也没有 UI exp 我已经能够创建一个带有面板按钮和文本输入框的框架我希望能够在文本框中输入文本并让程序在单击按钮后对输入框中的文本执行操作我可以获得一些关
字典中列表中仅有的几个索引的总和

如果我有这种类型的字典 a dictionary dog white 3 5 black 6 7 Brown 23 1 cat gray 5 6 brown 4 9 bird blue 3 5 green 1 2 yellow 4 9 mo
在 Windows 上使用 IPython 笔记本时出现 500 服务器错误

我刚刚在 Windows 7 Professional 64 位上全新安装了 IPython 笔记本我采取的步骤是从以下位置安装 Python 3 4 1http python org http python org gt pip in
urllib2.urlopen() 是否实际获取页面？

当我使用 urllib2 urlopen 时我在考虑它只是为了读取标题还是实际上带回整个网页 IE 是否真的通过 urlopen 调用或 read 调用获取 HTML 页面 handle urllib2 urlopen url html
如何逐像素绘制正方形（Python，PIL）

在空白画布上我想使用 Pillow 逐像素绘制一个正方形我尝试使用 img putpixel 30 60 155 155 55 绘制一个像素但它没有执行任何操作 from PIL import Image def newImg img
ValueError：无法插入 ID，已存在

我有这个数据 ID TIME 1 2 1 4 1 2 2 3 我想按以下方式对数据进行分组ID并计算每组的平均时间和规模 ID MEAN TIME COUNT 1 2 67 3 2 3 00 1 如果我运行此代码则会收到错误 ValueE
Python模块单元测试的最佳文件结构组织？

遗憾的是我发现有太多方法可以在 Python 中保存单元测试而且它们通常没有很好的文档记录我正在寻找一种终极结构它可以满足以下大部分要求 be discoverable by test frameworks including
如何在单独的文件中使用 FastAPI Depends 作为端点/路由？

我在单独的文件中定义了一个 Websocket 端点例如 from starlette endpoints import WebSocketEndpoint from connection service import Connectio
使用“pythonw”（而不是“python”）运行应用程序时找不到模块

我尝试了这个最小的例子 from flask import Flask app Flask name app route def hello world return Hello World if name main app run deb
从时间序列生成日期特征

我有一个数据框其中包含如下列 Date temp data holiday day 01 01 2000 10000 0 1 02 01 2000 0 1 2 03 01 2000 2000 0 3 30 01 2000 200 0 30
如何在SqlAlchemy中执行“左外连接”

我需要执行这个查询 select field11 field12 from Table 1 t1 left outer join Table 2 t2 ON t2 tbl1 id t1 tbl1 id where t2 tbl2 id is
使用 numpy 加速 for 循环

下一个 for 循环如何使用 numpy 获得加速我想这里可以使用一些奇特的索引技巧但我不知道是哪一个这里可以使用 einsum 吗 a 0 for i in range len b a numpy mean C d e f b i

随机推荐

非托管导出错误“RGiesecke.DllExport.MSBuild.DllExportAppDomainIsolatedTask”

我在 Visual Studio 2017 编译 DLL 项目时遇到问题我在包管理器控制台上执行了 Install Package UnmanagedExports 错误无法从程序集 C Users Tom Desktop CSharp
NodeJS ping 端口

我正在为我工作的一家托管公司编写一个状态检查器我们想知道如何使用 nodejs 检查端口的状态如果可能的话如果没有你能建议任何其他想法比如使用 PHP 和阅读 STDOUT 吗是的这可以很容易地使用net http node
Java EE 7 属性文件配置的最佳实践建议是什么？

应用程序配置在现代 Java EE 应用程序中属于什么位置人们有哪些最佳实践建议通过应用程序配置我的意思是诸如与其他设备上的服务的连接设置之类的设置包括外部设备例如 Twitter 和我们的内部 Cassandra 服务器用于主
VS2015中如何设置工具提示颜色？

我刚刚安装了 Visual Studio 2015 总体来说非常好但是您可以在工具 gt 选项 gt 字体和颜色下配置的大量不同内容完全让我感到困惑我需要找到允许我更改此工具提示颜色的设置以便我可以实际阅读它它在哪里下载颜色主
php:: tmp 文件保留多长时间？

我正在编写上传脚本如果用户上传一个文件并且该文件已经存在我想警告用户这都是通过ajax 并让他们选择替换它或取消而不是移动文件我很好奇是否可以将文件保留在 tmp 中并在 ajax 响应中传回该文件的路径如果用户说覆盖该 aja
Android 版 Chrome 无法正确显示 Google 网络字体

我已经使用 CSS 重现了我遇到的问题font family以及 Android 版 Chrome Web 浏览器无法正确继承字体而是使用后备字体 http jsbin com iyifah 1 edit http jsbin com i
RxJS - 使用成对确认和恢复输入字段

所以我对可观察的东西有点陌生我正在努力解决一个场景我认为它可能是一个很好的候选问题开始了场景是这样的我有一个下拉字段当它改变时我想要检查基于条件以前的值和新的值领域的如果条件通过则请求用户确认并且如果用户未确认则恢
Android 上的 Bootstrap 3 长模态滚动背景

我有一个长模态框无法在我的 Android 移动设备上完全显示按钮位于屏幕底部下方模态框根本不滚动但模态框后面的灰色背景会滚动是否有任何 css js锁定背景并允许模式在显示时滚动的技巧可能是因为模态类位置是固定的尝试将下面的
当某些值丢失时如何绘制谷歌折线图？

我在以下位置找到了以下 JavaScript 代码谷歌图表工具 http code google com apis chart interactive docs gallery imagelinechart html function dr
Colab 上的 gdrive 问题

安装谷歌驱动器后我正在使用 colab 在 cifar10 上训练 resnet 我克隆了存储库并且能够运行该脚本然而 Tensorflow 已加载数据文件已传递到网络但我以以下内容结束 tensorflow python fram
Java中获取默认根目录

我正在制作一个基本的文件浏览器并且想知道如何获取默认根目录我知道java io File listRoots 给出所有的根对我来说是A C D E F G H I L T U X Y Z 但我想要用户主要使用的那个即带有操作系统的那
XSD 中缺少响应和 DTO 对象

我正在使用最新版本的 ServiceStack 和 NuGet 我已经有了一个基本的服务设置可以与 JsonServiceClient 很好地配合并且按预期通过了所有单元测试不幸的是我还尝试支持 SOAP 和 Visual Stud
适用于 Microsoft Windows 的终端多路复用器 - GNU Screen 或 tmux 的安装程序 [关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我正在寻找适用于 Microsoft Windows 的终端多路复用器我无法找到 tmux 和 GNU Screen 的 Microso
AngularJS 指令根据指令名称的第一个字符而中断

我编写了一个 Angular 指令该指令表现出一些奇怪的行为该指令向 parsers 添加了一个函数以根据正则表达式模式限制用户输入的内容如果当前文本与模式不匹配解析器会将文本恢复为该字段的先前值因此当文本恢复时 Angula
特定于平台的 std::chrono::high_resolution_clock::period::num

我注意到了std chrono high resolution clock period num 1对于我测试过的每个系统是否存在任何系统嵌入式桌面移动或其他它恰好是其他数字在这样的系统上 1 秒不能用刻度来表示有以下三种实现
Chrome 扩展 - 如何使用清单 v3 访问本地 file://

我有一个 Chrome 扩展程序可以如果您允许访问文件 URL 抓取您在 Chrome 中打开的本地 pdf 文件并将其发送到我们的 API 进行处理这是通过获取 pdf 来完成的XMLHttpRequest to file Use
时间：2019-03-07 标签：c#thread

我正在学习有关线程的更多信息并且我使用以下代码创建了一个相当简单的 WPF 应用程序 x64 平台构建 public partial class MainWindow Window public MainWindow Initialize
mysqldump：错误 2020：转储表时数据包大于“max_allowed_packet”字节

mysqldump Error 2020 Got packet bigger than max allowed packet bytes when dumping table 发生当我做一个 mysqldump u root p 数据库
使用 jQuery 每 10 秒用 php 数据刷新一个 div

我尝试使用 jQuery 每 10 秒刷新一次 div 中存储的数据我的 HTML 代码是
如何将 Python 中的所有 unicode 小写字符与正则表达式匹配？

我正在尝试编写一个与 Python 3 中的 Unicode 小写字符匹配的正则表达式我正在使用re图书馆例如 re findall some pattern u K 应该返回 u 在 Sublime Text 中我只需输入 lowe

如何将 Python 中的所有 unicode 小写字符与正则表达式匹配？

如何将 Python 中的所有 unicode 小写字符与正则表达式匹配？ 的相关文章

随机推荐

热门标签

如何将 Python 中的所有 unicode 小写字符与正则表达式匹配？的相关文章