获取 URL 时出现 UnicodeEncodeError

2024-04-21

我正在使用 urlfetch 来获取 URL。当我尝试将其发送到 html2text 函数（删除所有 HTML 标签）时，我收到以下消息：

UnicodeEncodeError: 'charmap' codec can't encode characters in position  ... character maps to <undefined>

我一直在尝试处理字符串上的编码（'UTF-8'，'忽略'），但我不断收到此错误。

有任何想法吗？

Thanks,

Joel

一些代码：

result = urlfetch.fetch(url="http://www.google.com")
html2text(result.content.encode('utf-8', 'ignore'))

以及错误消息：

File "C:\Python26\lib\encodings\cp1252.py", line 12, in encode
return codecs.charmap_encode(input,errors,encoding_table)
UnicodeEncodeError: 'charmap' codec can't encode characters in position 159-165: character maps to <undefined>

你需要decode您首先获取的数据！使用哪个编解码器？取决于您获取的网站。

当你有 unicode 并尝试使用它进行编码时some_unicode.encode('utf-8', 'ignore')我无法想象它如何引发错误。

好的，你需要做什么：

result = fetch('http://google.com') 
content_type = result.headers['Content-Type'] # figure out what you just fetched
ctype, charset = content_type.split(';')
encoding = charset[len(' charset='):] # get the encoding
print encoding # ie ISO-8859-1
utext = result.content.decode(encoding) # now you have unicode
text = utext.encode('utf8', 'ignore') # encode to uft8

这并不是很强大，但它应该为您指明方向。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

googleappengine

获取 URL 时出现 UnicodeEncodeError 的相关文章

查找公因数以将浮点数列表转换为整数列表

我有一个来自其他函数的浮点数列表我所知道的是在理想世界中存在一个共同因素可用于将每一项相乘以获得整数列表可能存在一些小的数值噪声 1e 14 例如 2 3333333333333335 4 666666666666667 1 0 1
为 App Engine NDB 模型指定 key_name 的最佳方法是什么？

我正在尝试创建一个 ndb 模型其中每个记录都有一个唯一的字段名称我想将此字段定义为 key name 字段并用它来查找记录我是否必须包含名称字段或者我可以以某种方式将 key name 字段设置为用户可以指定的任意字符串只要它
Django - 未找到“”的反向。 '' 不是有效的视图函数或模式名称

我正在研究我的课程项目但现在我完全陷入困境我正在创建一个网站通过 PayPal 销售产品但 PayPal 退货取消页面未正确呈现我已经按照课程中的示例检查了代码一百次但显然我遗漏了一些东西当我转到产品单击立即购买登录 P
在 Python 中静默打印 PDF

我正在尝试使用 Python 打印 PDF 而不打开 PDF 查看器应用程序 Adobe Foxit 等我还需要知道打印何时完成以删除文件 Here http permalink gmane org gmane comp python
为不带引号的函数获取字符串参数

我有一个函数用于从 URL 下载文件并将其写入磁盘并施加特定的文件扩展名目前它看起来像这样 import requests import os def getpml url filename psc requests get url
使用 PyQt 和 matplotlib 在可滚动小部件中显示多个绘图

由于我没有得到答案this https stackoverflow com questions 12179893 creating a scrollable multiplot with pythons pylab我尝试用 PyQt 解决这
Dataframe unstack 性能 - pandas

我正在尝试拆开数据框它工作正常但问题是我正在处理 CSV 文件中的巨大数据集约 10 亿这是示例数据集 236539 48512569874 Name Danny 236539 48512569874 Class 12 236539
与 GridSearchCV 的并行错误，与其他方法一起工作正常

我使用 GridSearchCV 时遇到以下问题它在使用时给我一个并行错误n jobs gt 1 同时n jobs gt 1与 RadonmForestClassifier 等单一模型配合良好下面是一个显示错误的简单工作示例 train
创建 Pyomo 约束的性能

我正在用 pyomo 设置一个更大的能量优化问题正如其他中提到的设置花费了不合理的时间问题 https stackoverflow com questions 43413067 performance of pyomo to gener
使用字典时如何避免 KeyError？

现在我正在尝试编写汇编程序但我不断收到此错误 Traceback most recent call last File Users Douglas Documents NeWS py line 44 in if item in regis
如何将 MP3 音频文件读入 numpy 数组/将 numpy 数组保存到 MP3？

有没有办法从 MP3 音频文件中读取写入 MP3 音频文件numpy具有类似 API 的数组scipy io wavfile read https docs scipy org doc scipy 0 14 0 reference gen
python中的unicode错误[关闭]

很难说出这里问的是什么这个问题是含糊的模糊的不完整的过于宽泛的或修辞性的无法以目前的形式得到合理的回答如需帮助澄清此问题以便重新打开访问帮助中心 help reopen questions 在下面的代码中我收到错误mailSe
在keras自定义损失中使用层输出

我正在 Keras 中开发自定义损失函数我需要第一层输出我怎样才能取回它 def custom loss y true y pred cross K mean K binary crossentropy y true y pred ax
Django ImageField 默认值

模型 py class UserProfile models Model photo models ImageField upload to get upload file name storage OverwriteStorage def
将 pi 打印到小数点后几位

w3resources 面临的挑战之一是将 pi 打印到小数点后 n 位这是我的代码 from math import pi fraser str pi length of pi number of places raw input En
从由空格分隔的单个输入整数列表创建二维数组

我正在解决一些问题geeksforgeeks我遇到了一个特定的问题其中在测试用例中提供了输入如下所示 2 2 denotes row column of the matrix 1 0 0 0 all the elements of th
Django中的自动递增值

我在 django 中有一个表并尝试自动递增它的序列号在自定义模板中 for 循环用于变量自定义模板 for i in getodeskview tr td 1 td td i odesk id td td i hours td td
如何提高大规模数据帧上 lambda 函数的性能

我有一个df超过数亿行 latitude longitude time VAL 0 39 20000076293945312500 140 80000305175781250000 1972 01 19 13 00 00 1 2000000
Django 多个外键，相同的相关名称

我想创建一个模型 1 其中具有相同其他模型 2 的多个外键我希望这些外键具有相同的related name因为每个外键将指向 model 2 的不同实例因为我需要所有外键的一个反向关系也许一个例子会更明确 class Parent M
加载腌制字典对象或加载 JSON 文件哪个更快？ [关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案什么更快 A Unpickling 加载一个 pickled 字典对象使用pickle load or B 使用以下命令将 JSON

随机推荐

仅当前一阶段在 Jenkins 脚本化管道中成功时才运行阶段

我正在尝试在 Jenkins 脚本化管道中运行条件步骤但是我不确定如何仅在上一步成功时运行一个步骤例如在下面如果测试阶段成功我只想运行推送工件阶段 node docker2 stage Build build applic
类库的配置文件的物理位置在哪里？

我的猜测是这个问题属于 duh 类别但是尽管如此我还是很困惑例如在 Windows 窗体应用程序中使用配置文件时可以在以下位置找到配置文件C Program 文件公司名称产品名称 Application exe config
getch 返回-1？

他们询问如何捕获 F11 或 insand getchr 等键这些键不会返回任何内容而且我找不到任何可以接受来自输入事件的原始输入的方法我现在正在 C 程序中尝试 ncurses curses 来捕获这些键我的测试程序很简单基本上
使用 Lambda/Template/SFINAE 自动保护 Trampoline 函数的 try/catch

我有 100 个左右的蹦床函数我想知道是否可以将每个都自动包装在 try catch 块中请提前警告这不是一个简单的问题我将首先用简化的代码描述问题然后尝试在下面尽力回答它以便读者可以看到我所处的位置 Foo 有一个函数指针
iOS 中文本区域上的 Shadow DOM 强制填充

我遇到了一个让我有点困惑的问题我对此问题的参考是 Mac 上的 Chrome 32 和 iOS 7 0 4 上的 Safari 在以下示例中 Chrome 将文本呈现在 background and textarea元素完美且相互叠加这
将 MS Access 应用程序中的对象导出为文本对象，并导入到新的 MDB 中

我需要将 MDB 中的所有对象导出到文件夹中的文本文件然后使用一些 VBA 代码将这些文本文件作为新的 Access 对象导入到全新的 MDB 中有人有这个的源代码吗我知道它存在于某个地方只是现在找不到它损坏的 Microsoft
删除与用户区域设置相关的日期格式的年份

我想根据用户设备的区域设置显示日期和月份这样今天的日期就会显示为5 18具有美国设置和18 5 具有德国设置因为我想处理所有可能的区域设置所以我不能简单地使用 dateFormatter setDateFormat and dateF
我应该如何更新 REST 资源？

我不确定应该如何更新 REST 资源的各个属性考虑以下示例 HTTP GET to users 1 xml
无效 URI：当 url 包含多个冒号时指定的端口无效

我使用 dnsdynamic org 指向我家中托管的个人网站我的家庭ip每月都会频繁变化一次 dnsdynamic org 提供了一个 Web 方法调用来更新 ip https username email protected cdn
为什么 DefaultStyleKey 不更改我的子类的默认样式？

我有一个基类叫做Handle我从中派生出几个基类例如RectHandle and EllipseHandle 在这些子类中我尝试覆盖默认样式键以指向Handle但风格定位Handle不适用我仍然需要明确目标RectHandle or
IIS7什么时候负载太大？

在我们的客户中候选人使用我们的软件进行测试如果他们的测试完成一些计算将在服务器上完成现在有时200名考生可以同时结束考试因此200个计算是同时进行的计算似乎一切顺利但对 IIS7 服务器的一些调用返回了 http 错误在
如何在非交互模式下配置 pam-auth-update？

I wanted to enable PAM module packages in non interactive mode Running pam auth update will prompt a wizard to enable th
哪个更有效：List.Add() 或 System.Array.Resize()？

我正在尝试确定何时更有效List
iPhone - 如何使用 XCode 4 符号化/翻译/读取设备崩溃日志

我如何翻译符号化来自我的设备的崩溃日志以了解应用程序崩溃的位置假设我运行了调试版本我有 crash 文件以及与发送的文件相对应的 app 和 app dSYM 文件到设备界面没有命令行解决方案将不胜感激因为据说组织者知道如何
ConnectString 在 C# 中不起作用

public static DataSet ParseDatabaseData string sheetName string connectionString Provider System Data SqlClient Data Sou
在闪亮的应用程序中过滤数据，但在更新表时将值保留在 selectInput 中

我有一个闪亮的应用程序要求用户上传一个文件带有数据的表格文件然后将该文件呈现到一个表中用户可以根据numericInput selectInput and textAreaInput 用户必须选择过滤器然后按下按钮才能过滤表没有
Visual Studio 2015 Cordova 工具 - 启动 Ripple 时出现错误“scriptedsandbox64.exe 已停止工作”

每当我启动ripple调试器时 scriptedsandbox64 exe进程就会停止工作并且DOM资源管理器和调试工具都会显示一个巨大的刷新按钮单击该按钮只会导致错误再次出现问题是 Internet Explorer 版本为 10
Google Drive/OAuth - 无法弄清楚如何获得可重复使用的 GoogleCredentials

我已经成功安装并运行名为 DriveCommandLine 的 Google Drive 快速启动应用程序 https developers google com drive quickstart 我还对其进行了一些调整以获取我的云端硬盘
使用 PHP 从图像中删除白色背景并使其透明

我得到了这段代码来做到这一点 im new Imagick test jpg im gt paintTransparentImage im gt getImageBackgroundColor 0 500 im gt setImageFor
获取 URL 时出现 UnicodeEncodeError

我正在使用 urlfetch 来获取 URL 当我尝试将其发送到 html2text 函数删除所有 HTML 标签时我收到以下消息 UnicodeEncodeError charmap codec can t encode chara

获取 URL 时出现 UnicodeEncodeError

获取 URL 时出现 UnicodeEncodeError 的相关文章

随机推荐

热门标签