Python：替换重音符号（é 到 e）、删除 [^a-zA-Z\d\s] 和 lower() 的有效方法[重复]

2024-01-19

使用Python 3.3。我想做以下事情：

替换特殊字母字符，例如 e 锐号 (é) 和 o 带有基本字符的扬抑符 (ô)（例如，从 ô 到 o）
删除除字母数字和字母数字之间的空格之外的所有字符人物
转换为小写

这是我到目前为止所拥有的：

mystring_modified = mystring.replace('\u00E9', 'e').replace('\u00F4', 'o').lower()
alphnumspace = re.compile(r"[^a-zA-Z\d\s]")
mystring_modified = alphnumspace.sub('', mystring_modified)

我该如何改进这个？效率是一个大问题，特别是因为我目前正在循环内执行操作：

# Pseudocode
for mystring in myfile:
    mystring_modified = # operations described above
    mylist.append(mystring_modified)

相关文件每个大约有 200,000 个字符。

>>> import unicodedata
>>> s='éô'
>>> ''.join((c for c in unicodedata.normalize('NFD', s) if unicodedata.category(c) != 'Mn'))
'eo'

还请查看统一编码 https://pypi.python.org/pypi/Unidecode

Unicode 提供的是一条中间道路：函数 unidecode() 采用 Unicode 数据并尝试用 ASCII 字符表示它（即 0x00 和 0x7F 之间的通用可显示字符），其中选择两个字符集之间的映射时采取的妥协接近使用美国键盘的人会选择的内容。

生成的 ASCII 表示的质量各不相同。对于以下语言西方血统应该是介于完美和优秀之间。在另一手写音译（即，用罗马字母传达由其他一些书写系统中的文本表达的发音）像中文、日文或韩文这样的语言是一个非常复杂的问题这个库甚至没有尝试解决这个问题。它画线在上下文无关的逐字符映射。所以一个好的经验法则是你音译的脚本来自拉丁语字母表，音译就会越差。

请注意，该模块通常会比简单的模块产生更好的结果从字符中去除重音符号（可以在Python中使用以下命令完成）内置函数）。它基于手动调整的字符映射例如还包含符号的 ASCII 近似值和非拉丁字母。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

regex

Python：替换重音符号（é 到 e）、删除 [^a-zA-Z\d\s] 和 lower() 的有效方法[重复] 的相关文章

laravel 正则表达式验证不起作用

我刚刚开始使用 laravel 正在努力验证我的表单之一中的文本区域文本区域用于用户简介因此我只想允许使用字母数字空格和以下字符这就是我所拥有的 validator Validator make Input all array b
使用 scipy.signal.spectrogram 在 pyqtgraph 中绘制 wavfile 的频谱

我有一个用于音乐和语音分析的 PyQt 加 pyqtgraph 程序我想绘制 wav 文件的频谱使用 scipy python 包计算我可以在 matplotlib 中完成但由于 matplotlib 的性能我需要切换到 pyqt
如何获取Python对象父级？

所以我试图获取自定义对象内部的对象这是一个例子假设 o 是一个对象无论是什么类型它都可以存储变量 o Object class Test def init self self parent o This is where I
Daphne Django 文件上传大小限制

我使用 Daphne 进行套接字和 http 连接我正在运行 4 个工作容器并且现在在 docker 容器中本地运行所有内容如果我尝试上传 400MB 的文件我的 daphne 服务器会失败它适用于最大 15MB 的小文件我的
如何在仍然使用 unique = True 的同时允许 ModelForm 中的空字段？

目前在models py I have class ModelName models Model rowname models CharField max length 100 blank True unique True 就确保相同的值不
扭曲的日志记录到屏幕（标准输出）不起作用

我有这个小程序取自这里 https twistedmatrix com documents 16 3 0 core howto logger html usage for emitting applications from twisted
如何将魔杖图像对象转换为 numpy 数组（不使用 OpenCV）？

我正在使用将 pdf 文件转换为图像Wand http docs wand py org en 0 4 4 然后我使用 ndimage 进行进一步的图像处理我想直接将 Wand 图像转换为 ndarray 我已经看到答案here htt
python解释器自动重启而不返回答案

调用递归函数时 python解释器会自动重新启动吗我正在编写一个快速排序算法并尝试对一个大的数字数组顺序 10 4 进行排序但是当我尝试对整个数组进行排序时 python 正在重新启动即给我重新启动并且存储在内存中的所有值函
xlwt 可以在单元格中创建一个包含标题和链接变量的超链接吗？

例如如何更改以下行使 test 为变量 T 且 http google com http google com 是变量L ws write 0 0 xlwt Formula test HYPERLINK http google com
使用unittest时如何知道每次测试花费的时间？

Unittest 仅显示运行所有测试所花费的总时间但不单独显示每个测试所花费的时间使用unittest时如何添加每个测试的计时我想目前不可能 http bugs python org issue4080 http bugs pyth
初始化整数变量以进行比较

我正在学习麻省理工学院的开放课件课程计算机科学和 Python 编程简介 https ocw mit edu courses electrical engineering and computer science 6 0001 introd
谷歌colab录音，如何实现更精确的方式告诉用户开始对着麦克风说话

我正在尝试创建一个为机器学习项目录制音频的程序我想使用 google colab 这样人们就不必在他们的系统上安装或运行任何东西我在网上找到了这个录制和播放音频的示例单元格 1 包含用于录制音频的 js 代码和用于将其转换为字节对象的
如何在 TCL/EXPECT 中使用 $expect_out 分配变量？

如果我想匹配DEF 23使用以下正则表达式 expect re DEF 0 9 set result expect out 1 string 为什么它说no such element in array 如何 expect out工作以及我
如何通过不规则索引获取子张量？

我想通过不规则索引获得子张量这是我的问题 Input tensor 2x8x10x1 Batch x Height x Width x Channel index Height 0 1 4 5 index Width 0 1 4 5 8
使用 Django 添加额外 \\ 字符的 JSON 编码

我正在尝试创建一个函数将包含消息和 Django 模型实例的字典转换为 JSON 然后我可以将其传回客户端例如我在 models py 中定义了模型 Test from django db import models class Te
将连续行与相同的列值合并

我有一个看起来像这样的东西我该如何处理 0 d 0 The DT 1 Skoll ORGANIZATION 2 Foundation ORGANIZATION 3 4 based VBN 5 in IN 6 Silicon LOCATIO
具有默认参数的Python类构造函数[重复]

这个问题在这里已经有答案了可能的重复 Python 中的最不令人惊讶可变默认参数 https stackoverflow com questions 1132941 least astonishment in python the m
从值数组中计算 sympy 表达式

我正在尝试 sympy 但遇到了一个无法解决的问题使用 scipy 我可以编写一个表达式并计算 x 值数组如下所示 import scipy xvals scipy arange 100 100 0 1 f lambda x x 2 f
带有远程解释器的 Python 控制台无法在 PyCharm 中接受输入

我是使用 PyCharm 进行远程开发的新手我设置了一个远程环境除了一个例外之外它工作正常无法在控制台中接受用户输入在控制台中运行以下语句时控制台被阻塞提示上一个命令仍在运行请等待或按控制台中的 Control C 来中断
与仅调用依赖函数/类相比，在 FastAPI 中使用 Depends 有哪些优点？

FastAPI 提供了way https fastapi tiangolo com tutorial dependencies 通过其自己的依赖关系解析机制来管理依赖关系例如数据库连接它类似于一个pytest夹具系统简而言之您在函数

随机推荐

如何在 pandas 中创建叠加条形图

在更新我之前的一些代码以使用 pandas DataFrame 时我遇到了以下问题这是我的原始代码将创建的参考图 import pandas as pd import matplotlib pyplot as plt a range 1
获取 CGEvent Tap 中按下的修改键

设置事件点击后我无法识别在给定 CGEvent 的情况下按下了哪个修饰键 CGEventFlags flagsP flagsP CGEventGetFlags event NSLog flags 0x llX flagsP NSLog s
如何消除 php5 Strict 标准错误？

将 PHP 升级到 5 4 3 WAMP 服务器 2 2 后我用 CakePHP 1 3 制作的 Web 应用程序在索引中显示以下错误严格标准重新定义类的已定义构造函数第 63 行 C cake cake libs object p
sql查询不打印

我正在尝试运行动态查询但由于某些奇怪的原因它没有运行它甚至没有打印请任何人告诉我为什么下面的动态查询不打印 DECLARE CLIENTPK NEW AS VARCHAR 50 DECLARE CGNEEPK AS VARCHAR 5
弹簧动态注入，工厂化模式

延续自依赖注入延迟注入实践 https stackoverflow com questions 10384473 dependency injection delayed injection praxis 10414747 我有主课 pa
如何在 Maven-3 下使用 MOXy 从 XSD 生成 Java？

在 Maven 3 下使用 MOXy 从 XSD 生成 Java 的最简单最好的方法是什么参考 JAXB 接口有一个很好的 Maven 插件但它似乎不支持 MOXy 有人有什么具体的可以提供吗我知道我可以编写 ant 脚本或者插件
使用动态 SQL ALTER USER 查询预防 SQL 注入

这是防止动态 sql alter user 查询中的 sql 注入的好方法吗 BEGIN z ident DBMS ASSERT ENQUOTE NAME ident z pass DBMS ASSERT ENQUOTE NAME pass
如何将 jquery ui 小部件嵌入到polymer-dart web 组件中

我尝试嵌入一个 jquery ui 小部件例如将日期选择器集成到聚合物飞镖网络组件中 Web 组件的定义如下
带引号的批处理路径

如何检查路径是否有引号如果没有则添加它我知道我可以做这样的事情 set p path My path path 但我在引用时遇到问题 C My folder gt path gt C My folder gt Good 如果用户输入带引
GPUImage 色度键滤镜

我正在尝试使用 GPUImage 框架的色键过滤器我按照 Filtershowcase 示例进行操作但显然我错过了一些东西因为它只显示视频但没有绿屏抠出效果这是我对摄像机滤镜的初始化 camera GPUImageStillCa
检测多 SIM 设备中来电的目标 SimCard

我读过很多帖子并尝试过很多解决方案但所有帖子的共同点是它们都已经过时了至少我找不到适用于较新版本的 Android 的解决方案 Post 1 https stackoverflow com a 21454296 6444297 结果 i
以 DRY 方式扩展 SLICK 表

我有一个关于 Slick Scala 的有趣问题我希望你们中的一位好心人能够帮助我我有几个表并通过扩展在 SLICK 案例类中 case class A case class B case class C 共享这些共同领域 id St
使用Jquery查找父div的id

我有一些像这样的html div p Volume p div
Rails - 操作电缆上的服务器阻塞

我有一个在开发中完美运行的 Rails 应用程序我已部署到服务器应用程序加载并正确显示其登陆和关于页面但是当我使用 Action Cable 访问页面时服务器会阻塞从网页发出的最后一个请求与 Action Cable 相关并且
Android 中背景为 AnimationDrawable 的按钮状态

我在 Android 中制作自定义按钮已经有一段时间了事情很简单只需为按钮状态制作图像资源并为其制作一个选择器一切都很顺利而且美好现在我遇到了新的情况我制作了一个可绘制的动画并将其设置为按钮的背景
如何在 Eclipse 编辑器插件中显示语法错误

如何在 Eclipse 编辑器插件中指示语法错误例如非法的标记序列就像在 Eclipse Java 编辑器中一样即通过红色蠕动下划线滚动条上可以跳转到的红色标记以及解释性消息您将鼠标悬停在其中一个上吗我正在为自定义文件格式特别
当子属性更改时如何触发 NgComponent 的更新

我是 AngularDart 和 Dart 的完全初学者我遵循了教程但我似乎找不到答案我有两个可以完美工作的 NgComponents
ggplot2——自动放大geom_smooth（使用coord_cartesian）

geom smooth很棒很大程度上是因为它平均了很多变化然而正因为如此当它缩小时很难看出它在 x 轴上的变化我正在制作大约 1000 个我需要的图表ggplot2放大通过coord cartesian 然而每个图表都有不同的
使用时间选择器设置时间

有两个编辑文本单击编辑文本时间选择器应该弹出如何使用时间选择器选择日期并在两个编辑文本中设置日期我已经用谷歌搜索了 timepicker 但我不知道如何在单击 edittext 时启动时间选择器并且设置时间 XML
Python：替换重音符号（é 到 e）、删除 [^a-zA-Z\d\s] 和 lower() 的有效方法[重复]

这个问题在这里已经有答案了使用Python 3 3 我想做以下事情替换特殊字母字符例如 e 锐号和 o 带有基本字符的扬抑符例如从到 o 删除除字母数字和字母数字之间的空格之外的所有字符人物转换为小写这是我到目前为止所拥

Python：替换重音符号（é 到 e）、删除 [^a-zA-Z\d\s] 和 lower() 的有效方法[重复]

Python：替换重音符号（é 到 e）、删除 [^a-zA-Z\d\s] 和 lower() 的有效方法[重复] 的相关文章

随机推荐

热门标签