如何解决这个奇怪的Python编码问题？

2024-03-25

我正在对来自网络的字符串语料库执行一些 NLP 任务 - 正如您所期望的，存在编码问题。以下是一些示例：

they don’t serve sushi : the apostrophe in don't is not standard ' but \xe2\x80\x99
Delicious food – Wow   : the hyphen before wow is \xe2\x80\x93

所以现在，我要读取这些行，将它们传递给 NLTK 进行解析，使用解析信息通过 mallet 训练 CRF 模型。

让我们从我在堆栈溢出中随处可见的解决方案开始。这里有一些实验：-

st = "they don’t serve sushi"

st.encode('utf-8')
Out[2]: 'they don\xc3\xa2\xe2\x82\xac\xe2\x84\xa2t serve sushi'

st.decode('utf-8')
Out[3]: u'they don\u2019t serve sushi'

因此，这些只是尝试和错误的尝试，看看某些东西是否可行。

我最终使用了编码后的句子并将其传递到下一部分 - 使用 nltk 进行 pos 标记。posTags = nltk.pos_tag(tokens)它抛出了一个众所周知的丑陋异常：-

 File "C:\Users\user\workspacePy\_projectname_\CRF\FeatureGen.py", line 95, in getSentenceFeatures
    posTags = nltk.pos_tag(tokens)
  File "C:\Users\user\Anaconda\lib\site-packages\nltk\tag\__init__.py", line 101, in pos_tag
    return tagger.tag(tokens)
  File "C:\Users\user\Anaconda\lib\site-packages\nltk\tag\sequential.py", line 61, in tag
    tags.append(self.tag_one(tokens, i, tags))
  File "C:\Users\user\Anaconda\lib\site-packages\nltk\tag\sequential.py", line 81, in tag_one
    tag = tagger.choose_tag(tokens, index, history)
  File "C:\Users\user\Anaconda\lib\site-packages\nltk\tag\sequential.py", line 634, in choose_tag
    featureset = self.feature_detector(tokens, index, history)
  File "C:\Users\user\Anaconda\lib\site-packages\nltk\tag\sequential.py", line 736, in feature_detector
    'prevtag+word': '%s+%s' % (prevtag, word.lower()),
UnicodeDecodeError: 'ascii' codec can't decode byte 0xe2 in position 0: ordinal not in range(128)

当我尝试解码时，它说UnicodeEncodeError: 'ascii' codec can't encode character u'\u2013' in position 42: ordinal not in range(128)在我解码字符串的行中。

所以我目前的解决方案是删除所有非ascii字符。但它完全改变了单词，导致基于一元二元（单词组合）的模型严重丢失数据。

正确的做法应该是什么？

在你的例子中st是一个 str（字节列表）。为此，它以某种形式进行编码（从外观上看是 utf8），但将其视为字节列表，并且您需要知道它是如何编码的以便对其进行解码（尽管 utf8 通常总是一个很好的第一注））。

>>> st = "they don’t serve sushi"
>>> st
'they don\xe2\x80\x99t serve sushi'
>>> type(st)
<type 'str'>

>>> st.encode('utf8')
UnicodeDecodeError: 'ascii' codec can't decode byte 0xe2 in position 8: ordinal not in range(128)

So st.encode这里是没有意义的。它已经被编码了（从表面上看，解释器将其编码为 utf8）。由于某些疯狂的原因，在 python2 中str.encode首先会decode转换为 unicode，然后encode回到海峡。它默认选择解码为 ascii，但您的数据编码为 utf8。因此，您看到的错误是在编码操作的解码步骤中！它正在查看字节列表e2,80,99并说 - '嗯，那些不是真正的 ASCII 字符'。

让我们从 unicode 数据开始（注意 u）：

>>> st = u"they don’t serve sushi"
>>> st
u'they don\u2019t serve sushi'
>>> type(st)
<type 'unicode'>
>>> st.encode('utf8')
'they don\xe2\x80\x99t serve sushi'

确实，这一切都是python2的错。 Python3 不会让你摆脱将 unicode 和 str 视为同一事物的这些恶作剧。

经验法则是；始终在代码中使用 unicode。仅在将数据传入和传出系统时进行编码/解码，并且通常编码为 utf8，除非您有其他特定要求。

在 python2 中你可以确保'data'在你的代码中自动是unicodeu'data'

from __future__ import unicode_literals

>>> st = "they don’t serve sushi"
>>> st
u'they don\u2019t serve sushi'
>>> type(st)
<type 'unicode'>

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

如何解决这个奇怪的Python编码问题？的相关文章

McNemar 在 Python 中的测试以及分类机器学习模型的比较 [关闭]

Closed 此问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案有没有用 Python 实现的好的 McNemar 测试我在 Scipy stats 或 Scikit
将 C++ 指针作为参数传递给 Cython 函数

cdef extern from Foo h cdef cppclass Bar pass cdef class PyClass cdef Bar bar def cinit self Bar b bar b 这总是会给我类似的东西 Can
使用 Python 3 动态插入到 sqlite

我想使用 sqlite 写入多个表但我不想提前手动指定查询有数十种可能的排列例如 def insert sqlite tablename data list global dbc dbc execute insert into tab
如何获取numpy.random.choice的索引？ - Python

是否可以修改 numpy random choice 函数以使其返回所选元素的索引基本上我想创建一个列表并随机选择元素而不进行替换 import numpy as np gt gt gt a 1 4 1 3 3 2 1 4 gt gt
numpy：高效执行数组的复杂重塑

我正在将供应商提供的大型二进制数组读入 2D numpy 数组 tempfid M N load data data numpy fromfile file dirname fid dtype numpy dtype i4 convert
是否有一个包可以维护所有带有符号的货币列表？

是否有一个 python 包提供所有或相当完整货币的列表与符号如美元的有优秀的pycountry 贪财的 https github com limist py moneyed and ccy http code google com
OpenCV 跟踪器：模型未在函数 init 中初始化

在视频的第一帧我运行一个对象检测器它返回对象的边界框如下所示
如何在 Python 中的函数入口、内部和退出处进行日志记录

我希望能够使用 Python 日志记录工具在我的代码中进行简单且一致的日志记录我能够执行以下操作我希望所有现有未来的模块和函数都有输入和完成日志消息我不想添加相同的代码片段来定义日志记录参数如下所示don t want t
如何将标记化中的多单词名称保留在一起？

我想使用 TF IDF 特征对文档进行分类一种方法是 from sklearn feature extraction text import TfidfVectorizer import string import re import n
如何在 Django Rest 框架中编写“删除”操作的测试

我正在为 Django Rest Framework API 编写测试我一直在测试删除我对创建的测试工作正常这是我的测试代码 import json from django urls import reverse from re
使用seaborn绘制简单线图

我正在尝试使用seaborn python 绘制ROC曲线对于 matplotlib 我只需使用该函数plot plt plot one minus specificity sensitivity bs where one minus s
Discord.py 嵌入中禁用按钮/冻结按钮

I m trying to make a replica of this bot in which when I press any of the buttons below it shows a dropdown menu and you
确定分割形状几何体的“左”侧和“右”侧

我的问题是我怎样才能确定哪一个Aside and Bside的侧面已经分割的旋转矩形几何体 http nbviewer jupyter org urls dl dropbox com s ll3mchnx0jwzjnf determine
PyInstaller“ValueError：源代码字符串不能包含空字节”

我得到了一个ValueError source code string cannot contain null bytes执行命令时pyinstaller main py在具有和不具有管理员权限的cmd中 Traceback most re
在 numpy 中连接维度

我有x 1 2 3 4 5 6 7 8 9 10 11 12 shape 2 2 3 I want 1 2 3 4 5 6 7 8 9 10 11 12 shape 2 6 也就是说我想连接中间维度的所有项目在这种特殊情况下我可以得到这
寻找完美的正方形

我有这个Python代码 def sqrt x ans 0 if x gt 0 while ans ans lt x ans ans 1 if ans ans x print x is not a perfect square return
非法指令：MacOS High Sierra 上有 4 条指令

我正在尝试在 pygame 3 6 中制作一个看起来像聊天的窗口我刚刚将我的 MacBook 更新到版本 10 13 6 在我这样做之前它工作得很好但在我收到消息之后非法指令 4 Code import pygame from pyg
django jet 中的自定义徽标

我目前正在尝试对 django 管理面板的皮肤进行一些定制以使其更符合我们的品牌目前我们使用 django jet 来美化管理面板 django jet 可以自定义 css html 吗所有评论都说我应该更改一些 html 文件但我
Python 中的 Unix cat 函数 (cat * > merged.txt)？ [复制]

这个问题在这里已经有答案了一旦建立了目录有没有办法在Python中使用Unix中的cat函数或类似的函数我想将 files 1 3 合并到 merged txt 我通常会在 Unix 中找到该目录然后运行 cat gt merged
描述符“join”需要“unicode”对象，但收到“str”

代码改编自here http wiki geany org howtos convert camelcase from foo bar to Foo Bar def lower case underscore to camel case s

随机推荐

为什么我不能在 .NET 中为结构定义默认构造函数？

在 NET 中值类型 C struct 不能有没有参数的构造函数根据这个帖子 https stackoverflow com questions 203695 structure vs class in c 204009这是 CLI 规
自定义 LIBFFI Heroku 构建包的问题

我正在尝试将我的应用程序部署到 Heroku 它正在使用pyOpenSSL 这需要cryptography 这需要libffi 我找到了一个自定义构建包其中包括libffi here https github com mfenniak h
ClassCastException：AbsListView$LayoutParams 无法转换为 Gallery$LayoutParams

我正在尝试开发 Android 3 1 平板电脑应用程序这个app会有很多图片我已经关注了脱离 UI 线程处理位图 http developer android com training displaying bitmaps proce
如果一个类具有非纯析构函数，它仍然可以是纯抽象的吗？

我正在做一项练习要求我采用基类 Rodent 并将其设为纯抽象类我对纯抽象类的理解是它充当接口并且仅包含纯虚函数虽然这是一个简单的练习但我对本书提供的解决方案有疑问 class Rodent public virtual Roden
如何在Android中播放GIF文件？

我想在当前活动中播放 GIF 文件我有一个 XML 文件其中有一个布局我想在同一个班级的 Activity 中播放 GIF 有没有一种简单的方法可以在 Activity 类中播放 GIF 文件您可以使用网络视图我将用一个例子来展示
C# 列表 - 在循环/迭代时删除项目[重复]

这个问题在这里已经有答案了假设我有以下代码片段 var data new List
使用或不使用“执行”语句在 UFT 中设置对象引用

最近我被分配了一个项目其中使用执行语句设置对象引用如下所示 Execute Set objButton XamRibbonWindowAddin XamWindow DashBoard WpfButton Save 然而我设置对
使用 CompositionBatch 对象从 CompositionContainer 中删除部件

我有一个基于 MEF 的解决方案其中有多个接口的导出实现我想要做的是有一个开关可以删除ALL与接口关联的当前部分并用一个实现替换它们我一直在尝试这样做CompositionBatch对象但似乎不起作用这是我正在做的一个例子 Ex
每次我使用自制程序升级 R 时，我都需要再次安装大多数软件包

R 包安装到 usr local Cellar r 3 1 2 1 R framework Versions 3 1 Resources library 每当我跑步时brew upgrade r而且R的版本发生变化随着安装路径的变化我需
当代码更改时，UITextField 会触发 UITextFieldTextDidChangeNotification 吗？

我正在尝试添加一个UIViewController成为观察者UITextFieldTextDidChangeNotification通知当我通过在文本字段中输入来更改文本时一切都会顺利进行但是如果我尝试通过调用 textfield
在 Delphi 中，如何更改 TDBGrid 中网格线的颜色？

我在 Delphi 应用程序中使用 TDBGrid 组件当我更改行颜色时网格线变得不清楚或几乎不可见那么有人可以告诉我们如何改变网格线的颜色吗我的意思是如何更改单元格边框的颜色见下图细胞边界您在寻找吗 procedure
Typesafe Activator 运行错误（无法检索 jansi 1.11）

我在 Windows 8 上安装了 Typesafe Activator 以使用 Play Framework 2 3 当我尝试运行 Activator 时它停止并出现以下错误 unresolved dependency org fuse
局部变量可以在方法外使用吗？

我陷入了有关局部变量的问题以下不是我的原始代码但我用一个简单的例子来表达我的问题 import java util Scanner public static void main String args Scanner userScan
在 Neo4jClient Cypher 查询中返回多列

我正在使用 Azure 发现性能很慢为了减少往返时间我将以下查询合并为一个查询 var queryItem graphClient Cypher Start new n Node ByIndexLookup item idx SKU s
如何使用 flutter web 从 Firebase 电话身份验证中删除验证码验证？

我想删除或隐藏谷歌验证码验证我的用于验证手机号码并登录的代码 await FirebaseAuth instance verifyPhoneNumber phoneNumber 91 customMobileController text
PostgreSQL psycopg2 Python3.7.4 UnicodeDecodeError：'ascii'编解码器无法解码字节

我尝试使用 ANSI 驱动程序从 PostgreSQL 数据库进行查询但对于某些查询失败出现以下错误 UnicodeDecodeError ascii codec can t decode byte 0xfd in position 1
JavaScript 命令在 Safari 中未按顺序执行

我在处理另一个问题时发现了这个错误列出的 JavaScript 命令的顺序与其在 Safari 中的执行顺序不同 Example alert here document write This is the hidden message a
使用 json.net 反序列化时是否保留数组顺序？

当我使用 json net 库将 json 对象反序列化为 c 对象时数组属性中元素的顺序是否会保持不变例如 public class MySonsThreeFootRadius public Boolean IsMessy get s
Wymeditor 跨子域。（跨站点权限问题。）

我在 sub1 domain com 上有 wymeditor 它是通过 sub2 domains com 上的页面访问的这行给出了一个错误 var styles this doc styleSheets 0 权限被拒绝http remo
如何解决这个奇怪的Python编码问题？

我正在对来自网络的字符串语料库执行一些 NLP 任务正如您所期望的存在编码问题以下是一些示例 they don t serve sushi the apostrophe in don t is not standard but xe2

如何解决这个奇怪的Python编码问题？

如何解决这个奇怪的Python编码问题？ 的相关文章

随机推荐

热门标签

如何解决这个奇怪的Python编码问题？的相关文章