latin-1 转 ascii

2024-03-25

我有一个带有重音拉丁字符的 unicode 字符串，例如

n=unicode('Wikipédia, le projet d’encyclopédie','utf-8')

我想将其转换为普通的 ascii，即“Wikipedia, le projet dencyclopedie”，因此所有急音/重音、变音符号等都应该被删除

最快的方法是什么，因为需要匹配很长的自动完成下拉列表

结论：我的标准之一是速度，Lennart 的“注册您自己的 unicode 编码/解码错误处理程序”提供了最佳结果（请参阅 Alex 的答案），随着越来越多的字符是拉丁字符，速度差异进一步增加。

这是我正在使用的翻译表，还修改了错误处理程序，因为它需要处理从 error.start 到 error.end 的整个未编码字符范围

# -*- coding: utf-8 -*-
import codecs

"""
This is more of visual translation also avoiding multiple char translation
e.g. £ may be written as {pound}
"""
latin_dict = {
u"¡": u"!", u"¢": u"c", u"£": u"L", u"¤": u"o", u"¥": u"Y",
u"¦": u"|", u"§": u"S", u"¨": u"`", u"©": u"c", u"ª": u"a",
u"«": u"<<", u"¬": u"-", u"": u"-", u"®": u"R", u"¯": u"-",
u"°": u"o", u"±": u"+-", u"²": u"2", u"³": u"3", u"´": u"'",
u"µ": u"u", u"¶": u"P", u"·": u".", u"¸": u",", u"¹": u"1",
u"º": u"o", u"»": u">>", u"¼": u"1/4", u"½": u"1/2", u"¾": u"3/4",
u"¿": u"?", u"À": u"A", u"Á": u"A", u"Â": u"A", u"Ã": u"A",
u"Ä": u"A", u"Å": u"A", u"Æ": u"Ae", u"Ç": u"C", u"È": u"E",
u"É": u"E", u"Ê": u"E", u"Ë": u"E", u"Ì": u"I", u"Í": u"I",
u"Î": u"I", u"Ï": u"I", u"Ð": u"D", u"Ñ": u"N", u"Ò": u"O",
u"Ó": u"O", u"Ô": u"O", u"Õ": u"O", u"Ö": u"O", u"×": u"*",
u"Ø": u"O", u"Ù": u"U", u"Ú": u"U", u"Û": u"U", u"Ü": u"U",
u"Ý": u"Y", u"Þ": u"p", u"ß": u"b", u"à": u"a", u"á": u"a",
u"â": u"a", u"ã": u"a", u"ä": u"a", u"å": u"a", u"æ": u"ae",
u"ç": u"c", u"è": u"e", u"é": u"e", u"ê": u"e", u"ë": u"e",
u"ì": u"i", u"í": u"i", u"î": u"i", u"ï": u"i", u"ð": u"d",
u"ñ": u"n", u"ò": u"o", u"ó": u"o", u"ô": u"o", u"õ": u"o",
u"ö": u"o", u"÷": u"/", u"ø": u"o", u"ù": u"u", u"ú": u"u",
u"û": u"u", u"ü": u"u", u"ý": u"y", u"þ": u"p", u"ÿ": u"y", 
u"’":u"'"}

def latin2ascii(error):
    """
    error is  protion of text from start to end, we just convert first
    hence return error.start+1 instead of error.end
    """
    return latin_dict[error.object[error.start]], error.start+1

codecs.register_error('latin2ascii', latin2ascii)

if __name__ == "__main__":
    x = u"¼ éíñ§ÐÌëÑ » ¼ ö ® © ’"
    print x
    print x.encode('ascii', 'latin2ascii')

为什么我回来error.start + 1:

返回的错误对象可以是多个字符，我们仅转换其中的第一个字符，例如如果我添加print error.start, error.end错误处理程序输出是

¼ éíñ§ÐÌëÑ » ¼ ö ® © ’
0 1
2 10
3 10
4 10
5 10
6 10
7 10
8 10
9 10
11 12
13 14
15 16
17 18
19 20
21 22
1/4 einSDIeN >> 1/4 o R c '

所以在第二行中，我们得到 2-10 之间的字符，但我们只转换第 2 个字符，因此返回 3 作为继续点，如果我们返回 error.end 输出是

¼ éíñ§ÐÌëÑ » ¼ ö ® © ’
0 1
2 10
11 12
13 14
15 16
17 18
19 20
21 22
1/4 e >> 1/4 o R c '

正如我们所看到的，2-10 部分已被单个字符替换。当然，一次性编码整个范围并返回 error.end 会更快，但出于演示目的，我保持简单。

see http://docs.python.org/library/codecs.html#codecs.register_error http://docs.python.org/library/codecs.html#codecs.register_error更多细节

因此，这里有三种方法，或多或少与其他答案中给出或建议的相同：

# -*- coding: utf-8 -*-
import codecs
import unicodedata

x = u"Wikipédia, le projet d’encyclopédie"

xtd = {ord(u'’'): u"'", ord(u'é'): u'e', }

def asciify(error):
    return xtd[ord(error.object[error.start])], error.end

codecs.register_error('asciify', asciify)

def ae():
  return x.encode('ascii', 'asciify')

def ud():
  return unicodedata.normalize('NFKD', x).encode('ASCII', 'ignore')

def tr():
  return x.translate(xtd)

if __name__ == '__main__':
  print 'or:', x
  print 'ae:', ae()
  print 'ud:', ud()
  print 'tr:', tr()

作为 main 运行，会发出：

or: Wikipédia, le projet d’encyclopédie
ae: Wikipedia, le projet d'encyclopedie
ud: Wikipedia, le projet dencyclopedie
tr: Wikipedia, le projet d'encyclopedie

清楚地表明基于 unicodedata 的方法，同时它确实具有不需要翻译映射的便利xtd，无法以自动方式正确翻译所有字符（它适用于重音字母，但不适用于反撇号），因此它还需要一些辅助步骤来明确处理这些字符（毫无疑问在现在的正文之前）。

表演也很有趣。在我的配备 Mac OS X 10.5 和系统 Python 2.5 的笔记本电脑上，相当重复：

$ python -mtimeit -s'import a' 'a.ae()'
100000 loops, best of 3: 7.5 usec per loop
$ python -mtimeit -s'import a' 'a.ud()'
100000 loops, best of 3: 3.66 usec per loop
$ python -mtimeit -s'import a' 'a.tr()'
10000 loops, best of 3: 21.4 usec per loop

translate出奇地慢（相对于其他方法）。我认为问题在于字典中的每个角色都会被研究translate情况（大多数不存在），但仅限于那些与asciify方法。

因此，为了完整起见，这里是“增强的 unicodedata”方法：

specstd = {ord(u'’'): u"'", }
def specials(error):
  return specstd.get(ord(error.object[error.start]), u''), error.end
codecs.register_error('specials', specials)

def bu():
  return unicodedata.normalize('NFKD', x).encode('ASCII', 'specials')

这给出了正确的输出，但是：

$ python -mtimeit -s'import a' 'a.bu()'
100000 loops, best of 3: 10.7 usec per loop

...速度不再那么好了。因此，如果速度很重要，那么毫无疑问值得费力地制作一个完整的xtd翻译字典并使用asciify方法。当每次翻译多花几微秒没什么大不了的时候，人们可能需要考虑bu方法只是为了方便（只需要一个翻译字典，希望很少的特殊字符不能用底层的 unicodedata 想法正确翻译）。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

Unicode

latin-1 转 ascii 的相关文章

从数据框中按索引删除行

我有一个数组wrong indexes train其中包含我想从数据框中删除的索引列表 0 63 151 469 1008 要删除这些索引我正在尝试这样做 df train drop wrong indexes train 但是代码失败
Python中Decimal类型的澄清

每个人都知道或者至少每个程序员都应该知道 http docs oracle com cd E19957 01 806 3568 ncg goldberg html 即使用float类型可能会导致精度错误然而在某些情况下精确的解决方
在 Tensorflow tf.nn.nce_loss 中出现 TypeError：'Mul' Op 的输入 'y' 的类型为 float32，与参数 'x' 的 int32 类型不匹配

我正在研究 Tensor Flow 中的 Bag of Words 实现并得到了类型错误 Mul Op 的输入 y 的类型为 float32 与参数 x 的 int32 类型不匹配在 tf nn nce loss 中我尝试查看 tf
如何使用 Plotly 中的直方图将所有离群值分入一个分箱？

所以问题是我可以在 Plotly 中绘制直方图其中所有大于某个阈值的值都将被分组到一个箱中吗所需的输出但使用标准情节Histogram类我只能得到这个输出 import pandas as pd from plotly import
从 ffmpeg 获取实时输出以在进度条中使用（PyQt4，stdout）

我已经查看了很多问题但仍然无法完全弄清楚我正在使用 PyQt 并且希望能够运行ffmpeg i file mp4 file avi并获取流式输出以便我可以创建进度条我看过这些问题 ffmpeg可以显示进度条吗 https stack
在 Python distutils 中从 setup.py 查找脚本目录的正确方法？

我正在分发一个具有以下结构的包 mymodule mymodule init py mymodule code py scripts script1 py scripts script2 py The mymodule的子目录mymodul
if 语句未命中中的 continue 断点

在下面的代码中两者a and b是生成器函数的输出并且可以评估为None或者有一个值 def testBehaviour self a None b 5 while True if not a or not b continue pri
如何在 pytest 中将单元测试和集成测试分开

根据维基百科 https en wikipedia org wiki Unit testing Description和各种articles https techbeacon com devops 6 best practices inte
忽略 Mercurial hook 中的某些 Mercurial 命令

我有一个像这样的善变钩子 hooks pretxncommit myhook python path to file myhook 代码如下所示 def myhook ui repo kwargs do some stuff 但在我的例子中
在Python中调整图像大小

我有一张尺寸为 288 352 的图像我想将其大小调整为 160 240 我尝试了以下代码 im imread abc png img im resize 160 240 Image ANTIALIAS 但它给出了一个错误TypeErro
python suds SOAP 请求中的名称空间前缀错误

我使用 python suds 来实现客户端并且在发送的 SOAP 标头中得到了错误的命名空间前缀用于定义由element ref 在 wsdl 中 wsdl 正在引用数据类型 xsd 文件请参见下文问题出在函数上GetRecord
TensorFlow的./configure在哪里以及如何启用GPU支持？

在我的 Ubuntu 上安装 TensorFlow 时我想将 GPU 与 CUDA 结合使用但我却停在了这一步官方教程 http www tensorflow org get started os setup md 这到底是哪里 con
奇怪的 MySQL Python mod_wsgi 无法连接到 'localhost' (49) 上的 MySQL 服务器问题

StackOverflow上也有类似的问题但我还没有发现完全相同的情况这是在使用 MySQL 的 OS X Leopard 机器上一些起始信息 MySQL Server version 5 1 30 Apache 2 2 13 Uni
Seaborn Pairplot 图例不显示颜色

我一直在学习如何在Python中使用seaborn和pairplot 这里的一切似乎都工作正常但由于某种原因图例不会显示相关的颜色我无法找到解决方案因此如果有人有任何建议请告诉我 x sns pairplot stats2 hue
如何在 python 中没有 csv.reader 迭代器的情况下解析单行 csv 字符串？

我有一个 CSV 文件需要重新排列和重新编码我想跑 line line decode windows 1250 encode utf 8 在由 CSV 读取器解析和分割之前的每一行或者我想自己迭代行运行重新编码并仅使用单行解析表单
无法在 osx-arm64 上安装 Python 3.7

我正在尝试使用 Conda 创建一个带有 Python 3 7 的新环境例如 conda create n qnn python 3 7 我收到以下错误 Collecting package metadata current repoda
使用yield 进行字典理解

作为一个人为的例子 myset set a b c d mydict item yield join item s for item in myset and list mydict gives as cs bs ds a None b N
如何在 OSX 上安装 numpy 和 scipy？

我是 Mac 新手请耐心等待我现在使用的是雪豹 10 6 4 我想安装numpy和scipy 所以我从他们的官方网站下载了python2 6 numpy和scipy dmg文件但是我在导入 numpy 时遇到问题 Library F
当鼠标悬停在上面时，intellisense vscode 不显示参数或文档

我正在尝试将整个工作流程从 Eclipse 和 Jupyter Notebook 迁移到 VS Code 我安装了 python 扩展它应该带有 Intellisense 但它只是部分更糟糕我在输入句点后收到建议但当将鼠标悬停在其上方
您可以使用关键字参数而不提供默认值吗？

我习惯于在 Python 中使用这样的函数方法定义 def my function arg1 None arg2 default do stuff here 如果我不供应arg1 or arg2 那么默认值None or default

随机推荐

从 .ToString("{0:C}") 格式的数字中删除 $

基本上我是这样格式化数字的 String Format 0 C Model Price 结果是 2 320 000 00 然而我想要的结果是2 320 000 00只是没有分别我怎样才能实现这一点同时仍然利用 nets 本地化处理 E
Autofac - 动态解析带有参数的组件

我有一个类它采用接口作为构造函数参数该接口有两种实现我想根据变量决定在运行时使用哪种实现问题是上面的类位于由 Autofac 解决的对象层次结构深处因此我无法传入参数我想要实现的目标如下所示 public interface I
FormsAuthenticationTicket isPersistent 属性的用途是什么？

我正在努力弄清楚这个目的isPersistent发现的财产FormsAuthenticationTicket class http msdn microsoft com en us library kybcs83h aspx http ms
如何读取包含 HTML 的 Lync 对话文件？

我在 C 中将本地文件读入字符串时遇到问题到目前为止这是我想到的 string file C script test 5461EC8C 89E6 40D1 8525 774340083829 html using StreamReade
输入和选择的尺寸相同（宽度x高度）

如何创建输入文本并选择相同的高度和宽度它在所有浏览器中都应该相同吗 First 重置你的CSS http meyerweb com eric tools css reset input border 1px solid 333 wid
FBSDKAppInviteDialogDelegate 的快速实现不起作用

我正在尝试在我的类上实现 FBSDKAppInviteDialogDelegate 协议但 xcode 向我显示一个错误提示类型 MyClass 不符合协议 FBSDKAppInviteDialogDelegate 协议定义 prot
SQL LIKE 语句。字符串结尾

我必须选择包含特定文本并以结尾的所有字段或空格字符或此文本放置在字符串的末尾所以我需要这样的东西 select from MyTable Where Column1 like text 此查询工作正常直到文本未放置在末尾Column
如何使 HIbernate 获取根实体的所有属性并仅获取关联实体的特定属性？

我有根实体Hostel及其单一关联User owner 当我取东西时Hostel我需要急切地获取实体User owner 但只有owner的 3 个属性 userId firstName lastName 现在我的条件查询是 Criteri
这是有效的 C 代码，但不是有效的 C++ 代码？

在我正在使用的一些库中用 C 编写 StorePGM image width height filename char image int width height char filename something something 所有
在 Selenium Python 绑定中设置页面加载超时

我正在使用带有 Selenium 模块的 Python 编写一个机器人当我用我的机器人打开一个网页时由于该网页包含的外部源比 dom 多所以需要花费很多时间才能加载所有页面我使用显式和隐式等待来消除这个问题因为我只想加载特定元素而
Spring获取ServletContext并将其作为Bean提供

I want to get the ServletContext in a Java Spring Webproject and use it to get the absolute path of my web application p
如何从 AWS AppStream 中获取当前用户？

我正在通过 AWS AppStream 对应用程序的部署进行原型设计对流的访问通过 Web 门户使用 SAML 进行管理我的应用程序需要知道用户的身份我可以提示他们但我不想让他们同时登录门户和应用程序我想获取他们在门户网站上提供
如何获取雪花中表的上次访问时间戳？

我想获取雪花中表的上次访问时间戳并不总是理想的但对于一次性问题找到此问题的一种快速方法是使用 QUERY HISTORY SELECT START TIME FROM TABLE INFORMATION SCHEMA QUERY HIS
Presto 中包含 ' ' 字符的键的 JSON_EXTRACT 问题

我正在使用 Presto 0 163 来查询数据并尝试从 json 中提取字段我有一个如下所示的 json 它出现在 style attributes 列中 attributes Brand Fit Name Regular Fit F
AndroidManifest.xml 中的属性 application@allowBackup value=(false) 也存在于 [:barcodescanner:] AndroidManifest.xml value=(true)

我尝试将 ionic 3 应用程序清单中的 allowedBackup 属性设置为 false 但 gradle 抱怨以下错误 AndroidManifest xml 4 18 45 中的属性 application allowBackup
iOS 7 图标文件名

如何命名 Xcode 5 的图标文件它总是给出错误说明应用程序不在顶层这真的很令人沮丧有人可以给我每个分辨率都必须使用的文件名吗 ios 7 兼容应用程序的图标文件名和大小如下 iPhone 图标 png 57 57 电子邮件受保护
Amazon AWS Cognito 和 Python Boto3 建立 AWS 连接并将文件上传到 Bucket

我正在尝试使用 AWS cognito 服务来验证和上传文件我已获得了 RegionType identityPool AWS 账户 ID 和 UnAuthRole 我还知道生产和开发桶的名称我想我正在设置 AWS 访问密钥和 AWS
PHP 延迟 10 分钟后执行代码

我需要在事件表单提交后延迟 10 分钟执行 PHP 中的某些代码例如发送电子邮件实现这一目标的最佳方法是什么我唯一的选择是每分钟运行一次 Cronjob 吗这对于共享主机实用吗使用 cronjobs 是最好的方法如果您无法
android 地图异步加载覆盖项

我有一个地图视图其中包含我想要加载的数千个项目显然在创建视图时我无法加载它们我想我必须根据当前显示的内容异步加载它们如何仅加载屏幕上显示的地图部分中的项目使用 AsyncTask 加载每个屏幕的各个层使用 MapView ap
latin-1 转 ascii

我有一个带有重音拉丁字符的 unicode 字符串例如 n unicode Wikip dia le projet d encyclop die utf 8 我想将其转换为普通的 ascii 即 Wikipedia le projet d

latin-1 转 ascii

latin-1 转 ascii 的相关文章

随机推荐

热门标签