检测unicode字符串中的非ascii字符[重复]

2024-04-21

给定一个文本文件（或 unicode 字符串），检测 ASCII 编码之外的字符的好方法是什么？我可以轻松地将每个字符迭代传递给ord()，但我想知道是否有更有效、更优雅或更惯用的方法来做到这一点。

这里的最终目标是编译数据中无法编码为 ascii 的字符列表。

如果重要的话，我的语料库的大小约为 500MB / 1200 个文本文件。在 Win7（64 位）上运行（预编译的普通）Python 3.3.1。

这里的最终目标是编译数据中的字符列表无法编码为 ascii。

我能想到的最有效的方法是使用re.sub() http://docs.python.org/2/library/re.html#re.sub删除任何有效的 ASCII 字符，这应该会留下一个包含所有非 ASCII 字符的字符串。

这只会删除可打印的字符......

>>> import re
>>> print re.sub('[ -~]', '', u'£100 is worth more than €100')
£€

...或者如果您想包含不可打印的字符，请使用此...

>>> print re.sub('[\x00-\x7f]', '', u'£100 is worth more than €100')
£€

要消除欺骗，只需创建一个set()返回的字符串...

>>> print set(re.sub('[\x00-\x7f]', '', u'£€£€'))
set([u'\xa3', u'\u20ac'])

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

Unicode

python3x

检测unicode字符串中的非ascii字符[重复] 的相关文章

尝试从网页Python和BeautifulSoup获取编码

我试图从网页检索字符集这会一直改变目前我使用 beautifulSoup 来解析页面然后从标题中提取字符集这工作正常直到我遇到一个网站到目前为止我的代码以及与其他页面一起使用的代码是 def get encoding soup
指示电子邮件的类型

我有以下自动化程序它将电子邮件发送给我自己并添加了特定的链接 import win32com client as win32 import easygui import tkinter as to from tkinter import
从 pyspark.sql 中的列表创建数据框

我完全陷入了有线的境地现在我有一个清单li li example data map lambda x get labeled prediction w x collect print li type li 输出就像 0 0 59 0 0
为什么第二个 request.session cookies 返回空？

我想使用 requests Session post 登录网站但是当我已经登录主页然后进入帐户页面时看来cookies还没有保存因为cookies是空的而且我无法进入正确的帐户页面 import requests from bs4
numpy：高效执行数组的复杂重塑

我正在将供应商提供的大型二进制数组读入 2D numpy 数组 tempfid M N load data data numpy fromfile file dirname fid dtype numpy dtype i4 convert
如何将 sql 数据输出到 QCalendarWidget

我希望能够在日历小部件上突出显示 SQL 数据库中的一天就像启动程序时突出显示当前日期一样在我的示例中它是红色突出显示我想要发生的是当用户按下突出显示的日期时数据库中日期旁边的文本将显示在日历下方的标签上这是我使用 QT De
python celery -A 的无效值无法加载应用程序

我有一个以下项目目录 azima init py main py tasks py task py from main import app app task def add x y return x y app task def mul
如何使用 Homebrew 在 Mac 上安装 Python 2 和 3？

我需要能够在 Python 2 和 3 之间来回切换我如何使用 Homebrew 来做到这一点因为我不想弄乱路径并陷入麻烦现在我已经通过 Homebrew 安装了 2 7 我会用pyenv https github com yyuu
如何在 Python 中的函数入口、内部和退出处进行日志记录

我希望能够使用 Python 日志记录工具在我的代码中进行简单且一致的日志记录我能够执行以下操作我希望所有现有未来的模块和函数都有输入和完成日志消息我不想添加相同的代码片段来定义日志记录参数如下所示don t want t
在Python中读取tiff标签

我正在尝试用 Python 读取 tiff 文件的标签该文件是 RGB 的uint16每个通道的值我目前正在使用tifffile import tifffile img tifffile imread file tif 然而 img是一
仅当某些值相等时，如何才能将一个文本文件中的值替换为另一个文本文件中的其他值？

我有一个名为finalscores txt我想创建一个 python 脚本它将打开它并从两个单独的列中读取值这是我的finalscores txt file Atom nVa predppm avgppm stdev delta QPr
使用标签或 href 传递 Django 数据

我有一个包含链接的表当单击该链接进行更多操作时我想将一些数据传递给我的函数 my html table tbody for query in queries tr td value a href internal my func que
App Engine 实体到字典

将 google app engine 实体在 python 中复制到字典对象的好方法是什么我正在使用 db Expando 对象所有属性均为扩展属性 Thanks 有一个名为foo尝试 foo dict
将字符串中的随机字符转换为大写

我尝试随机附加文本字符串这样就不只是有像这样的输出 gt gt gt david 我最终会得到类似的东西 gt gt gt DaViD gt gt gt dAviD 我现在的代码是这样的 import random import stri
基于值而不是类型的单次调度

我在 Django 上构建 SPA 并且有一个庞大的功能其中包含许多功能if用于检查我的对象字段的状态名称的语句像这样 if self state new do some logic if self state archive do s
如何通过函数注释指示函数需要函数作为参数，或返回函数？

您可以使用函数注释 http www python org dev peps pep 3107 在python 3中指示参数和返回值的类型如下所示 def myfunction name str age int gt str return
仅允许正小数

在我的 Django 模型中我创建了一个如下所示的小数字段 price models DecimalField u Price decimal places 2 max digits 12 显然价格为负或零是没有意义的有没有办法将小数
非法指令：MacOS High Sierra 上有 4 条指令

我正在尝试在 pygame 3 6 中制作一个看起来像聊天的窗口我刚刚将我的 MacBook 更新到版本 10 13 6 在我这样做之前它工作得很好但在我收到消息之后非法指令 4 Code import pygame from pyg
如何在 scikit 中加载 CSV 数据并将其用于朴素贝叶斯分类

尝试加载自定义数据以在 Scikit 中执行 NB 分类需要帮助将示例数据加载到 Scikit 中然后执行 NB 如何加载目标的分类值使用相同的数据进行训练和测试或使用完整的数据集进行测试 Sl No Member ID Membe
Python 中的 Unix cat 函数 (cat * > merged.txt)？ [复制]

这个问题在这里已经有答案了一旦建立了目录有没有办法在Python中使用Unix中的cat函数或类似的函数我想将 files 1 3 合并到 merged txt 我通常会在 Unix 中找到该目录然后运行 cat gt merged

随机推荐

Tensorflow：加载预训练 ResNet 模型时出错

我想使用 Tensorflow 中预先训练的 ResNet 模型我下载了code https github com tensorflow models blob master research slim nets resnet v1 py
如何在 Qt 中实现 QHoverEvent？

我正在学习 Qt 和 C 我已经成功地实现了信号和槽来捕获标准事件例如ButtonPushed 等等但是我希望当我将鼠标悬停在鼠标上并移出鼠标时调用一个函数QLabel 看起来像QHover事件 http doc qt io qt 4
Twisted、FTP 和“流式传输”大文件

我正在尝试实现最能描述为 HTTP API 的 FTP 接口的内容本质上有一个现有的 REST API 可用于管理站点的用户文件并且我正在构建一个中介服务器将该 API 重新公开为 FTP 服务器因此您可以使用 Filezil
如何正确使用DispatchQueue.main.async？

我的应用程序中有一个循环可能需要几秒钟的时间来处理我希望当循环在后台运行时屏幕立即关闭这可能吗我尝试过仅添加循环 DispatchQueue main async for in 1 self numberOfTransactions
Maven：从执行元素获取目标配置

假设我有以下魔力 Mojo name some goal public class MyMojo Parameter required true protected ComplexObject param 另外我在 pom 中有插件的描述符
如何剪辑较大的图像以适合以编程方式构建的 tabBarController 中的 tabBar 图标。

我以编程方式创建了一个选项卡控制器现在我想将图像添加到不同的选项卡为此我使用了 self tabBarItem image UIImage imageNamed Sample Image png 问题是 Sample image 的大
C++ 模板继承问题与基类型

我有以下代码但无法编译 template lt typename T gt class Base public typedef T TPtr void func template lt typename T gt class Derive
Nexus 工件删除命令

我已使用以下命令从命令行将工件上传到 Sonatype Nexus MAVEN maven bin mvn X e 部署部署文件 Durl http maven nexus com nexus content repositories x
将公钥添加到 ~/.ssh/authorized_keys 不会自动登录

我将公共 SSH 密钥添加到授权密钥 file ssh localhost应该让我登录而不询问密码我这样做并尝试输入ssh localhost 但它仍然要求我输入密码我还需要进行其他设置才能使其正常工作吗我已按照更改权限的说明进行操作
MASM32 中令人困惑的括号

我正在尝试掌握 MASM32 但对以下内容感到困惑我认为括号用于间接所以如果我有预定义的变量 data item dd 42 then mov ebx item 会将 item 的内容即数字 42 放入 ebx 中并 mov ebx
来自卸载事件的同步 AJAX 发布：如何确保用户在下一页加载时看到来自数据库的最新信息

当用户请求编辑 CMS 中的条目时我们会锁定它以便其他人无法同时编辑它当他们提交更改时我们会释放锁定然而我们需要处理用户通过其他链接离开页面的情况我的第一次尝试是使用 jQuery 来触发同步 ajax 呼吁 window
通过Entity类名动态获取一个DbSet

我正在尝试使用System Reflections得到一个DbSet
如何使用批处理全屏打开窗口

我之前用代码制作了一个批处理文件 start chrome exe profile directory Profile 1 http drive google com 它会以配置文件 1 用户的身份打开 google chrome 页面 D
尝试从故事板初始化视图控制器

我有一个视图控制器放置在主故事板中但是当我尝试初始化并加载视图控制器时我的应用程序崩溃了我使用的 xcode 版本并没有真正告诉我我正确得到的错误但我确实看到它给了我一个 sigabrt 信号我不知道为什么它不起作用 UIStor
使用文档片段真的能提高性能吗？

我对 JS 的性能有疑问比如说我有下一个代码 var divContainer document createElement div divContainer id container var divHeader document cr
Elastic Beanstalk：Amazon Linux 2 平台上的日志任务自定义

我想知道该怎么做日志任务定制 https docs aws amazon com elasticbeanstalk latest dg using features logging html health logs extend在新的 El
如何查看定位服务是否开启？

如何检查用户是否关闭了定位服务这样我就可以提示他她打开它才能使用我的应用程序谢谢 The CLLocationManager提供类方法来确定位置服务的可用性 BOOL locationServicesEnabled for lt iO
在 Visual Studio 中进行嵌入式代码开发（尤其是使用 C18 的 PIC）

我使用 Visual Studio 编写桌面应用程序我发现它非常用户友好且易于使用如果可能的话我还想在Visual Studio中编写嵌入式代码例如是否可以使用 C18 或任何其他类似的基于 C 的语言为 PIC18Fxxx 系列
javax.management.InstanceAlreadyExistsException：com.zaxxer.hikari：名称= dataSource，类型= HikariDataSource

我怎么解决这个问题哪个是最好的选择以及如何做到这一点设置唯一的池名称销毁之前的连接池 org apache catalina core ApplicationContext log Initializing Spring embedd
检测unicode字符串中的非ascii字符[重复]

这个问题在这里已经有答案了给定一个文本文件或 unicode 字符串检测 ASCII 编码之外的字符的好方法是什么我可以轻松地将每个字符迭代传递给ord 但我想知道是否有更有效更优雅或更惯用的方法来做到这一点这里的最终目标是编译

检测unicode字符串中的非ascii字符[重复]

检测unicode字符串中的非ascii字符[重复] 的相关文章

随机推荐

热门标签