组合变音符号未使用 unicodedata.normalize (PYTHON) 进行标准化

2024-02-16

我明白那个unicodedata.normalize将变音符号转换为非变音符号：

import unicodedata
''.join( c for c in unicodedata.normalize('NFD', u'B\u0153uf') 
            if unicodedata.category(c) != 'Mn'
       )

我的问题是（可以在这个例子中看到）： unicodedata 是否有办法将组合的 char 变音符号替换为对应的变音符号？（u'œ' 变为 'oe'）

如果不是，我想我将不得不对这些进行打击，但我也可能会用所有 uchar 及其对应项编译我自己的字典，然后忘记unicodedata共...

您的问题中的术语有些混乱。 A变音符号 http://en.wikipedia.org/wiki/Diacritic是可以添加到字母或其他字符的标记，但通常不独立。（Unicode 还使用更通用的术语组合字符.) What normalize('NFD', ...)所做的是转换预制字符 http://en.wikipedia.org/wiki/Precomposed_character到他们的组件中。

不管怎样，答案是 – 不是一个预组合字符。它是印刷连字 http://en.wikipedia.org/wiki/Typographic_ligature:

>>> unicodedata.name(u'\u0153')
'LATIN SMALL LIGATURE OE'

The unicodedata模块没有提供将连字分割成各个部分的方法。但数据存在于角色名称中：

import re
import unicodedata

_ligature_re = re.compile(r'LATIN (?:(CAPITAL)|SMALL) LIGATURE ([A-Z]{2,})')

def split_ligatures(s):
    """
    Split the ligatures in `s` into their component letters. 
    """
    def untie(l):
        m = _ligature_re.match(unicodedata.name(l))
        if not m: return l
        elif m.group(1): return m.group(2)
        else: return m.group(2).lower()
    return ''.join(untie(l) for l in s)

>>> split_ligatures(u'B\u0153uf \u0132sselmeer \uFB00otogra\uFB00')
u'Boeuf IJsselmeer ffotograff'

（当然，在实践中您不会这样做：您将按照您在问题中建议的方式预处理 Unicode 数据库以生成查找表。Unicode 中没有那么多连字。）

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

Unicode

replace

diacritics

组合变音符号未使用 unicodedata.normalize (PYTHON) 进行标准化的相关文章

如何在 Windows 64 上安装 NumPy？

NumPy 安装程序在注册表中找不到 python 路径无法安装需要 Python 2 5 版本但在注册表中未找到该版本 OK 我必须修改注册表吗我已经修改了 PATH 以指向Python25安装目录我可以检查一下您使用的是什么安
如何在Python中流式传输和操作大数据文件

我有一个相对较大 1 GB 的文本文件我想通过跨类别求和来减小其大小 Geography AgeGroup Gender Race Count County1 1 M 1 12 County1 2 M 1 3 County1 2 M 2
Sublime Text 插件开发中的全局 Python 包

一总结我不知道 Sublime Text 插件开发人员如何使用 Sublime Text 查找全局 Python 包而不是 Sublime Text 目录的 Python 包 Sublime Text使用自己的Python环境而不是
Pandas：GroupBy 到 DataFrame

参考这个关于 groupby 到 dataframe 的非常流行的问题 https stackoverflow com questions 10373660 converting a pandas groupby object to dat
Python 中的流式传输管道

我正在尝试使用 Python 将 vmstat 的输出转换为 CSV 文件因此我使用类似的方法转换为 CSV 并将日期和时间添加为列 vmstat 5 python myscript py gt gt vmstat log 我遇到的问题是
工作日重新订购 Pandas 系列

使用 Pandas 我提取了一个 CSV 文件然后创建了一系列数据来找出一周中哪几天崩溃最多 crashes by day bc DAY OF WEEK value counts 然后我将其绘制出来但当然它按照与该系列相同的排名顺序绘制
Emacs 24.x 上的 IPython 支持

我对 IPython 与 Emacs 的集成感到困惑从 Emacs 24 开始 Emacs 附带了自己的python el 该文件是否支持 IPython 还是仅支持 Python 另外维基百科 http emacswiki org e
如果在等待“read -s”时中断，在子进程中运行 bash 会破坏 tty 的标准输出吗？

正如 Bakuriu 在评论中指出的那样这基本上与BASH 输入期间按 Ctrl C 会中断当前终端 https stackoverflow com questions 31808863 bash ctrlc during input b
Gspread如何复制sheet

在 Stackoverflow 上进行谷歌搜索和搜索后我想我找不到有关如何复制现有工作表现有模板工作表并将其保存到另一个工作表中的指南根据文档有重复表 https gspread readthedocs io en latest
Django 的 request.FILES 出现 UnicodeDecodeError

我在视图调用中有以下代码 def view request body u for filename f in request FILES items body body Filename filename n f read n 在某些情况下
.pyx 文件出现未知文件类型错误

我正在尝试构建一个包含 pyx 文件的 Python 包 pyregion 但在构建过程中出现错误检查以下输出 python setup py build running build running build py creating b
使用Python计算目录的大小？

在我重新发明这个特殊的轮子之前有没有人有一个很好的例程来使用 Python 计算目录的大小如果例程能够很好地以 Mb Gb 等格式格式化大小那就太好了这会遍历所有子目录总结文件大小 import os def get size s
SMTP_SSL SSLError: [SSL: UNKNOWN_PROTOCOL] 未知协议 (_ssl.c:590)

此问题与 smtplib 的 SMTP SSL 连接有关当与 SMTP 无 ssl 连接时它正在工作在 SMTP SSL 中尝试相同的主机和端口时出现错误该错误仅基于主机 gmail 设置也工作正常请检查下面的示例如果 Out
使用 Pandas 计算 delta 列

我有一个数据框如下所示 Name Variable Field A 2 3 412 A 2 9 861 A 3 5 1703 B 3 5 1731 A 4 0 2609 B 4 0 2539 A 4 6 2821 B 4 6 2779 A
在 keras 中保存和加载权重

我试图从我训练过的模型中保存和加载权重我用来保存模型的代码是 TensorBoard log dir output model fit generator image a b gen batch size steps per epoch
从 NumPy 数组到 Mat 的 C++ 转换 (OpenCV)

我正在围绕 ArUco 增强现实库基于 OpenCV 编写一个薄包装器我试图构建的界面非常简单 Python 将图像传递给 C 代码 C 代码检测标记并将其位置和其他信息作为字典元组返回给 Python 但是我不知道如何在 Pytho
Django Admin 中的反向内联

我有以下 2 个型号现在我需要将模型 A 内联到模型 B 的页面上模型 py class A models Model name models CharField max length 50 class B models Model n
Django 与谷歌图表

我试图让谷歌图表显示在我的页面上但我不知道如何将值从 django 视图传递到 javascript 以便我可以绘制图表姜戈代码 array Year Sales Expenses 2004 1000 400 2005 1170 460
查找总和为给定数字的值组合的函数

这个帖子查找提供的 Sum 值的组合 https stackoverflow com a 20194023 1561176呈现函数subsets with sum 它在数组中查找总和等于给定值的值的组合但由于这个帖子已经有6年多了我发这
Apache Beam Pipeline 写表后查询表

我有一个 Apache Beam Dataflow 管道它将结果写入 BigQuery 表然后我想查询该表以获取管道的单独部分但是我似乎无法弄清楚如何正确设置此管道依赖性我编写的新表然后想要查询与一个单独的表连接以进行某些过滤

随机推荐

“WSGIRequest”对象没有属性“user”

我正在尝试在我的 django 项目中创建一个身份验证模块但是当我打开我的网站网址时出现此错误 WSGIRequest 对象没有属性 user 我试图找到有关此问题的信息有人说问题出在 MIDDLEWARE CLASSES 中但我无法
当后台获取异步时，何时在 application:performFetchWithCompletionHandler: 中调用completionHandler？

我有一个应用程序可以在后台获取的帮助下在后台获取内容因此如果后台获取应该发生我的application performFetchWithCompletionHandler 方法被调用在此方法中我使用 NSURLConnection
在手动定义的套件树中增强测试用例和套件固定装置

在 Windows x86 Android TI 2 2 上使用 Boost 1 46 1 我已经定义了自己的测试套件树因为我需要用户选择测试的顺序尽管我知道测试应该是独立的但这是一个要求使用我自己的实现重新定义了测试套件树test
Android 无法删除自定义标题栏周围的填充

我正在向标题标题添加一个自定义 img 但无论我做什么 img 的每一侧仍然有一个小间隙也显示在这个中 question https stackoverflow com questions 2665507 custom title bar
解析器错误 cxf-beans.xml 找不到元素“jaxws:endpoint”的声明
为什么我的响应式 html/css 无法在手机上运行？

我创建了一个测试地点 https test chozan co 我在 css 中使用了媒体查询但是当我在移动设备上加载页面时我看不到移动版本并且当我重新调整浏览器大小时网站会响应我在多个地方读过不要使用 device width
使用 Composer 安装/更新后是否应该自动从磁盘删除依赖项？

从composer json 中删除依赖项并运行安装或更新后我是否应该期望这些文件会自动从磁盘中删除我必须手动删除它们不确定是否应该这样做运行作曲家update将删除您从composer json中删除的包 Since instal
scala 中的“悬空”本地块

在 scala 中可以在函数中定义局部块本地块计算最后一条语句例如 val x val x 1 x 1 Here x 2 内部val x是该块本地的然而在编写匿名类时这些本地块可能会导致隐秘的错误例如来自scala的参考 n
ISymbol.DeclaringSyntaxReferences 和 ISymbol.Locations 之间的区别

两者有什么区别声明语法引用 http source roslyn codeplex com Microsoft CodeAnalysis Symbols ISymbol cs 7f9fc305c0940c9b财产和地点 http sourc
异常：System.ArgumentException：不支持关键字：将连接字符串硬编码到 dbcontext 时“初始目录”

我首先将连接字符串硬编码到实体框架数据库的 dbcontext 中 public MirrorBranchesEntities string connectionStringName string db base name connecti
HighStock 图表无法通过 SSL（即 https）工作

我有一个网站它是一个安全网站意味着可以使用以下方式访问它https 协议这个网站上有 highchart 当协议执行时 highchart 工作得很好http 但安装安全证书后它无法在任何浏览器中加载我已导入 HighStock
在网络网格中添加行

我正在使用 MVC 3 webgrid 我需要在 webgrid 中添加一个新行以显示产品表中的价格总和任何想法表示赞赏这是我的代码 WebGrid grid new WebGrid source Model rowsPerPage 3
在 AWS Glue 中转换其他列的数据类型时，某些列会变为 null

我正在尝试使用 AWS Glue 将 csv 数据从 AWS S3 移动到 AWS Redshift 我正在移动的数据使用非标准格式来记录每个条目的时间戳例如 01 JAN 2020 01 02 03 因此我的胶水爬行程序将此列作为字符串
网站上的数据泄露暴露了 Chrome 在我的登录表单上发送的密码消息

I made a login form an authenticated user is redirected to their home page But along with redirection chrome sent me thi
pandas scatter_matrix 方法的签名

Signature pandas scatter matrix frame alpha 0 5 figsize None ax None grid False diagonal hist marker density kwds None h
如何使用 Storyboard 在 AppDelegate 中使用自定义导航控制器

我有一个关于 AppDelegate 中的 Navigationcontroller 的问题我正在使用故事板如下所示由于使用推送通知我的 AppDelegate 文件中具有以下功能 void application UIApplic
对角循环二维数组

我编写了以下代码来遍历数组的一半对角线 String b a b c d e f g h i public void LoopDiag for int i b length 1 i gt 0 i String temp for int j
当 main() 退出时，分离的线程会发生什么？

假设我正在开始一个std thread进而detach 它所以线程继续执行即使std thread曾经代表它的东西已经超出了范围 Assume further that the program does not have a relia
如何使用 Jackson 将对象转换为具有前导零的整数字段的 JSON？

当我尝试转换具有整数字段的对象时其值为0000 转换后的 JSON 包含0代替0000 我该如何配置杰克逊的ObjectMapper转换0000 to 00000 前导 0 表示八进制数因此 JSON 中的数值不允许有前导零请参阅以下
组合变音符号未使用 unicodedata.normalize (PYTHON) 进行标准化

我明白那个unicodedata normalize将变音符号转换为非变音符号 import unicodedata join c for c in unicodedata normalize NFD u B u0153uf if unic

组合变音符号未使用 unicodedata.normalize (PYTHON) 进行标准化

组合变音符号未使用 unicodedata.normalize (PYTHON) 进行标准化 的相关文章

随机推荐

热门标签

组合变音符号未使用 unicodedata.normalize (PYTHON) 进行标准化的相关文章