UnicodeEncodeError:“ascii”编解码器无法对位置 20 中的字符 u'\xa0' 进行编码:序号不在范围内(128)

2024-02-26

我在处理从不同网页(在不同站点上)获取的文本中的 unicode 字符时遇到问题。我正在使用美丽汤。

问题是错误并不总是可重现的;它有时可以处理某些页面,有时,它会通过抛出一个UnicodeEncodeError。我已经尝试了几乎所有我能想到的方法,但我还没有找到任何可以一致工作且不会引发某种 Unicode 相关错误的方法。

导致问题的代码部分之一如下所示:

agent_telno = agent.find('div', 'agent_contact_number')
agent_telno = '' if agent_telno is None else agent_telno.contents[0]
p.agent_info = str(agent_contact + ' ' + agent_telno).strip()

以下是运行上面的代码片段时在某些字符串上生成的堆栈跟踪:

Traceback (most recent call last):
  File "foobar.py", line 792, in <module>
    p.agent_info = str(agent_contact + ' ' + agent_telno).strip()
UnicodeEncodeError: 'ascii' codec can't encode character u'\xa0' in position 20: ordinal not in range(128)

我怀疑这是因为某些页面(或更具体地说,某些站点的页面)可能已编码,而其他页面可能未编码。所有网站均位于英国,并提供供英国消费的数据 - 因此不存在与内化或处理非英语文本相关的问题。

有谁知道如何解决这个问题,以便我能够始终如一地解决这个问题?


阅读Python统一码指南 https://docs.python.org/2.7/howto/unicode.html。这个错误是第一个例子 https://docs.python.org/2.7/howto/unicode.html#the-unicode-type.

不使用str()从 unicode 转换为编码文本/字节。

相反,使用.encode() http://docs.python.org/library/stdtypes.html#str.encode对字符串进行编码:

p.agent_info = u' '.join((agent_contact, agent_telno)).encode('utf-8').strip()

或者完全使用 unicode 工作。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

UnicodeEncodeError:“ascii”编解码器无法对位置 20 中的字符 u'\xa0' 进行编码:序号不在范围内(128) 的相关文章

随机推荐

  • 创建共现矩阵

    我正在尝试解决共现矩阵的问题 我有一个交易和项目的数据文件 我想查看项目一起出现的交易数量的矩阵 我是 R 编程的新手 我很高兴发现 R 拥有的所有快捷方式 而不是创建特定的循环 我几年前曾经使用 C 现在只坚持使用 Excel 宏和 SP
  • H264解析-切片头检测

    我知道在 h264 中我们可以通过位模式检测 NAL 单元0x000001 是否有等效的方法来检测 NAL 单元中的切片标头 如何处理多切片 NAL 单元 目前我正在使用 h264 的解析代码并获取相应结构中的切片标头 切片头语法在第 36
  • 模式匹配 - Prolog 与 Haskell

    这不是一个家庭作业问题 而是一个考试学习指导问题 Prolog 与 Haskell 中的模式匹配有什么区别 我做了一些研究并阅读了它们背后的理论并没有真正让我对两者有一个坚实的理解 我在Prolog中读到 模式匹配是不同的 因为它具有统一变
  • 需要更好的算法来查找 2 组具有最小距离的点之间的映射

    Problem 我有两个重叠的 2D 形状 A 和 B 每个形状具有相同数量的像素 但形状不同 形状的某些部分是重叠的 而每个形状的某些部分是不重叠的 我的目标是将形状 A 中的所有不重叠像素移动到形状 B 中的不重叠像素 由于每个形状中的
  • 网站图像文件是否应该包含在 GIT 存储库中?

    我有一个网站文件 文件夹结构模板可以开始使用git 它包含一个空的 gitignore文件内的images文件夹 这引出了我的两部分问题 1 这个是空的吗 gitignore文件忽略所有位于的图像inside the images文件夹 或
  • Pandas 就地操作 DataFrame 与非就地操作 DataFrame (inplace=True vs False) [重复]

    这个问题在这里已经有答案了 我想知道当我们选择就地操作数据帧时 与没到位 我在 Stack Overflow 上做了一些搜索 发现了这个post https stackoverflow com questions 43893457 pyth
  • 将 Objective-C 对象作为 void * 指针传递给函数

    我有一个功能 myFunction MyProc callback void ref 该函数是从 Objective C 类中调用的 该函数传递一个指向回调 类中的函数 的指针和一个引用 该引用是必要的 因为回调是静态调用的 因此没有上下文
  • 哪个 C/C++ 头文件定义了 BYTE 数据类型?

    我正在使用此声明移植标头 struct tMaterialInfo char strName 255 the texture name char strFile 255 the texture BYTE color 3 the color
  • 观看模板文件并将其复制到 dist/ 文件夹

    我在我的项目中使用打字稿 我可以成功观看 编译 ts 文件并将它们输出到dist folder 这里是scripts我的一部分package json start npm run build npm run watch build npm
  • 如何提取这个多态递归函数?

    我正在使用 GHC 7 8 做一些相当有趣的事情 但遇到了一些问题 我有以下内容 mkResultF Eq k gt Query kvs KV k v gt k gt ResultF Reverse kvs Maybe v mkResult
  • 通过重复元素分割数组的最 Pythonic 方法

    我有一个要根据分隔符拆分的项目列表 我希望删除所有分隔符并在出现时拆分列表分隔符出现两次 例如 如果分隔符是 X 然后是以下列表 a b X X c d X X f X g 会变成 a b c d f g 请注意 最后一组没有拆分 我已经编
  • 插入数据库 php 后表情符号显示为问号

    我使用utf8mb4作为编码 character set connection和character set database已设置为utf8mb4 我的网页的字符集设置为utf8 我使用了 PDO 当我打开数据库连接时 我使用 utf8mb
  • 仅使用 javascript 生成并保存/下载文件 [关闭]

    就目前情况而言 这个问题不太适合我们的问答形式 我们希望答案得到事实 参考资料或专业知识的支持 但这个问题可能会引发辩论 争论 民意调查或扩展讨论 如果您觉得这个问题可以改进并可能重新开放 访问帮助中心 help reopen questi
  • 冒号运算符在 MATLAB 中如何工作?

    如中所述山姆 罗伯茨的回答 https stackoverflow com a 26297279 7328782 and gnovice 的另一个答案 https stackoverflow com a 5779438 7328782 MA
  • 从函数返回范围

    我试图让 VBA 中的子函数调用另一个函数 该函数返回一个范围并设置为一个变量 当我尝试运行 GetInputs 方法时出现语法错误 Function GetDataRange str As String As Range This pro
  • 使用 shell 脚本启动远程 (SSH) Java 应用程序将不会返回本地提示符

    我见过类似的问题 所有解决的问题都已解决 不适用 我在远程计算机中有一个启动 Java 应用程序的 bash 脚本 相关行是 usr bin env bash java cp full path to my jar com whatever
  • Flood Fill算法导致StackOverFlowError

    我正在使用 Java 编写一个简单的绘图应用程序 我正在尝试使用洪水填充算法的递归实现作为我的 桶填充 工具 然而 这always给我一个StackOverFlowError 无论我使用 桶填充工具 的区域有多小 编辑 更改了代码以使其更加
  • 以编程方式将文件检入 TFS 的结果超出预期

    因此 我有一个 NET 应用程序 它会生成一系列文件 将它们输出到本地目录 然后确定是否需要更新现有文件或将新文件添加到 TFS Team Foundation Server 项目中 我的本地计算机上有一个工作区 并且有 10 个不同的工作
  • 注释随情节表达而变化?

    假设我想制作一个像这样的子图 其中每个方面都有自己的 y 尺度 import plotly express as px fig px scatter px data iris x sepal length y sepal width fac
  • UnicodeEncodeError:“ascii”编解码器无法对位置 20 中的字符 u'\xa0' 进行编码:序号不在范围内(128)

    我在处理从不同网页 在不同站点上 获取的文本中的 unicode 字符时遇到问题 我正在使用美丽汤 问题是错误并不总是可重现的 它有时可以处理某些页面 有时 它会通过抛出一个UnicodeEncodeError 我已经尝试了几乎所有我能想到