设置restrict_xpaths设置后出现UnicodeEncodeError

2024-05-06

我是 python 和 scrapy 的新手。将restrict_xpaths 设置设置为“//table[@class="lista"]”后，我收到了以下回溯。奇怪的是，通过使用其他 xpath 规则，爬虫可以正常工作。

Traceback (most recent call last):
  File "/System/Library/Frameworks/Python.framework/Versions/2.7/Extras/lib/python/twisted/internet/base.py", line 800, in runUntilCurrent
    call.func(*call.args, **call.kw)
  File "/System/Library/Frameworks/Python.framework/Versions/2.7/Extras/lib/python/twisted/internet/task.py", line 602, in _tick
    taskObj._oneWorkUnit()
  File "/System/Library/Frameworks/Python.framework/Versions/2.7/Extras/lib/python/twisted/internet/task.py", line 479, in _oneWorkUnit
    result = self._iterator.next()
  File "/Library/Python/2.7/site-packages/scrapy/utils/defer.py", line 57, in <genexpr>
    work = (callable(elem, *args, **named) for elem in iterable)
--- <exception caught here> ---
  File "/Library/Python/2.7/site-packages/scrapy/utils/defer.py", line 96, in iter_errback
    yield it.next()
  File "/Library/Python/2.7/site-packages/scrapy/contrib/spidermiddleware/offsite.py", line 23, in process_spider_output
    for x in result:
  File "/Library/Python/2.7/site-packages/scrapy/contrib/spidermiddleware/referer.py", line 22, in <genexpr>
    return (_set_referer(r) for r in result or ())
  File "/Library/Python/2.7/site-packages/scrapy/contrib/spidermiddleware/urllength.py", line 33, in <genexpr>
    return (r for r in result or () if _filter(r))
  File "/Library/Python/2.7/site-packages/scrapy/contrib/spidermiddleware/depth.py", line 50, in <genexpr>
    return (r for r in result or () if _filter(r))
  File "/Library/Python/2.7/site-packages/scrapy/contrib/spiders/crawl.py", line 73, in _parse_response
    for request_or_item in self._requests_to_follow(response):
  File "/Library/Python/2.7/site-packages/scrapy/contrib/spiders/crawl.py", line 52, in _requests_to_follow
    links = [l for l in rule.link_extractor.extract_links(response) if l not in seen]
  File "/Library/Python/2.7/site-packages/scrapy/contrib/linkextractors/sgml.py", line 124, in extract_links
    ).encode(response.encoding)
  File "/System/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/encodings/iso8859_2.py", line 12, in encode
    return codecs.charmap_encode(input,errors,encoding_table)
exceptions.UnicodeEncodeError: 'charmap' codec can't encode character u'\xbb' in position 686: character maps to <undefined>

这是 MySpider 类。

from scrapy.contrib.spiders import CrawlSpider, Rule
from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor
from scrapy.selector import HtmlXPathSelector
from ds_crawl.items import DsCrawlItem

class MySpider(CrawlSpider):
    name = 'inside'
    allowed_domains = ['wroclaw.dlastudenta.pl']
    start_urls = ['http://wroclaw.dlastudenta.pl/stancje/']

    rules = (
        Rule(SgmlLinkExtractor(allow=('show_stancja'), restrict_xpaths=('//table[@class="lista"]')),  callback='parse_item', follow= True),)

    def parse_item(self, response):
        hxs = HtmlXPathSelector(response)
        titles = hxs.select("//p[@class='bbtext intextAd']")
        for titles in titles:
            item = DsCrawlItem()
            item['content'] = titles.select("text()").extract()
            print item

对此错误的任何解释和帮助将不胜感激。谢谢。

这是由于网页使用了»翻译的实体lxml到 unicode 字符\xbb当你使用restrict_xpaths参数链接提取器将内容编码为原始编码iso8859-2失败是因为\xbb不是该编码中的有效字符。

这个简单的行重现了异常：

>>> u'\xbb'.encode('iso8859-2')
...
UnicodeEncodeError: 'charmap' codec can't encode character u'\xbb' in position 0: character maps to <undefined>

解决此问题的方法可能是强制使用utf8对于所有回复。这可以通过一个简单的下载器中间件来完成：

# file: myproject/middlewares.py

class ForceUTF8Response(object):
    """A downloader middleware to force UTF-8 encoding for all responses."""
    encoding = 'utf-8'

    def process_response(self, request, response, spider):
        # Note: Use response.body_as_unicode() instead of response.text in in Scrapy <1.0.
        new_body = response.text.encode(self.encoding)
        return response.replace(body=new_body, encoding=self.encoding)

在您的设置中：

DOWNLOADER_MIDDLEWARES = {
    'myproject.middlewares.ForceUTF8Response': 100,
}

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

encoding

Scrapy

设置restrict_xpaths设置后出现UnicodeEncodeError 的相关文章

中断 Select 以添加另一个要在 Python 中监视的套接字

我正在 Windows XP 应用程序中使用 TCP 实现点对点 IPC 我正在使用select and socketPython 2 6 6 中的模块我有三个 TCP 线程一个读取线程通常会阻塞select 一个通常等待事件的写入线程
使用 python requests 模块时出现 HTTP 503 错误

我正在尝试发出 HTTP 请求但当前可以从 Firefox 浏览器访问的网站响应 503 错误代码本身非常简单在网上搜索一番后我添加了user Agent请求参数但也没有帮助有人能解释一下如何消除这个 503 错误吗顺便说一句
元组有什么用？

我现在正在学习 Python 课程我们刚刚介绍了元组作为数据类型之一我阅读了它的维基百科页面但是我无法弄清楚这种数据类型在实践中会有什么用处我可以提供一些需要一组不可变数字的示例吗也许是在 Python 中这与列表有何不同每
安装了 32 位的 Python，显示为 64 位

我需要运行 32 位版本的 Python 我认为这就是我在我的机器上运行的因为这是我下载的安装程序当我重新运行安装程序时它会将当前安装的 Python 版本称为 Python 3 5 32 位然而当我跑步时platform arch
处理 Python 行为测试框架中的异常

我一直在考虑从鼻子转向行为测试摩卡柴等已经宠坏了我到目前为止一切都很好但除了以下之外我似乎无法找出任何测试异常的方法 then It throws a KeyError exception def step impl contex
Python getstatusoutput 替换不返回完整输出

我发现了这个很棒的替代品getstatusoutput Python 2 中的函数在 Unix 和 Windows 上同样有效不过我觉得这个方法有问题output被构建它只返回输出的最后一行但我不明白为什么任何帮助都是极好的 def
需要在python中找到print或printf的源代码[关闭]

很难说出这里问的是什么这个问题是含糊的模糊的不完整的过于宽泛的或修辞性的无法以目前的形式得到合理的回答如需帮助澄清此问题以便重新打开访问帮助中心 help reopen questions 我正在做一些我不能完全谈论的事情我
使用Python请求登录Google帐户

在多个登录页面上需要谷歌登录才能继续我想用requestspython 中的库以便让我自己登录通常这很容易使用requests库但是我无法让它工作我不确定这是否是由于 Google 做出的一些限制也许我需要使用他们的 API 或
Pandas Merge (pd.merge) 如何设置索引和连接

我有两个 pandas 数据框 dfLeft 和 dfRight 以日期作为索引 dfLeft cusip factorL date 2012 01 03 XXXX 4 5 2012 01 03 YYYY 6 2 2012 01 04 XX
如何将张量流模型部署到azure ml工作台

我在用Azure ML Workbench执行二元分类到目前为止一切正常我有很好的准确性我想将模型部署为用于推理的 Web 服务我真的不知道从哪里开始 azure 提供了这个doc https learn microsoft co
使用 xlrd 打开 BytesIO (xlsx)

我正在使用 Django 需要读取上传的 xlsx 文件的工作表和单元格使用 xlrd 应该可以但因为文件必须保留在内存中并且可能不会保存到我不知道如何继续的位置本例中的起点是一个带有上传输入和提交按钮的网页提交后文件被捕获req
如何通过 TLS 1.2 运行 django runserver

我正在本地 Mac OS X 机器上测试 Stripe 订单我正在实现这段代码 stripe api key settings STRIPE SECRET order stripe Order create currency usd em
Jupyter Notebook 找不到 Python 模块

不知道发生了什么但每当我使用 ipython 氢原子或 jupyter 笔记本时都找不到任何已安装的模块我知道我安装了 pandas 但笔记本说找不到我应该补充一点当我正常运行脚本时 python script py 它确实导入
使用特定颜色和抖动在箱形图上绘制数据点

我有一个plotly graph objects Box图我显示了箱形图中的所有点我需要根据数据的属性为标记着色如下所示我还想抖动这些点下面未显示 Using Box我可以绘制点并抖动它们但我不认为我可以给它们着色 fig a
如何使用原始 SQL 查询实现搜索功能

我正在创建一个由 CS50 的网络系列指导的应用程序这要求我仅使用原始 SQL 查询而不是 ORM 我正在尝试创建一个搜索功能用户可以在其中查找存储在数据库中的书籍列表我希望他们能够查询书籍表中的 ISBN 标题作者列目前它
为什么 Pickle 协议 4 中的 Pickle 文件是协议 3 中的两倍，而速度却没有任何提升？

我正在测试 Python 3 4 我注意到 pickle 模块有一个新协议因此我对 2 个协议进行了基准测试 def test1 pickle3 open pickle3 wb for i in range 1000000 pickle
使用for循环时如何获取前一个元素？ [复制]

这个问题在这里已经有答案了可能的重复 Python 循环内的上一个和下一个值 https stackoverflow com questions 1011938 python previous and next values inside
如何应用一个函数 n 次？ [关闭]

Closed 这个问题需要细节或清晰度 help closed questions 目前不接受答案假设我有一个函数它接受一个参数并返回相同类型的结果 def increment x return x 1 如何制作高阶函数repeat可以
Pandas 每周计算重复值

我有一个Dataframe包含按周分组的日期和 ID df date id 2022 02 07 1 3 5 4 2022 02 14 2 1 3 2022 02 21 9 10 1 2022 05 16 我想计算每周有多少 id 与上周重
Kivy - 单击按钮时编辑标签

我希望 Button1 在单击时编辑标签 etykietka 但我不知道如何操作你有什么想法吗 class Zastepstwa App def build self lista WebOps getList layout BoxLayo

随机推荐

Visual Studio Code - 无法启动浏览器：“无法在您的系统上找到浏览器的安装。”

最近在 VS code 中运行脚本我的任何 python javascript html 脚本时出现了一个问题出现一个弹出窗口 Visual Studio Code Unable to launch Browser Unable to
nginx 反向代理 websocket

nginx 现在支持代理 websockets 但我无法找到任何有关如何在没有单独的情况下执行此操作的信息location应用于使用 websocket 的 URI 的块我见过一些人推荐这种方法的一些变体 location proxy h
另一个数组内的 stdClass 对象数组

我正在尝试从下面的 array1 获取信息通过执行以下操作我可以毫无问题地获取场地名称和地点地址 array2 array array3 array foreach array1 as item array2 item gt venue
lwjgl 3 , glUniformMatrix4 导致 jre 崩溃

我正在使用 lwjgl 3 并学习现代 opengl 3 我想将统一矩阵发送到顶点着色器以便我可以应用转换我尝试过但程序因此错误而崩溃 A fatal error has been detected by the Java Runti
mpld3图，注释问题

我正在使用 mpld3 在 Intranet 网站上显示图形我正在使用将图形保存到字典并使用 mpld3 js 在客户端渲染它的选项除非我想使用注释否则该图呈现良好这些显然是抵消的我不明白为什么因为即使我将偏移量设置为 0 0
升压参数库

最近我发现参数 http www boost org doc libs 1 50 0 libs parameter doc html index htmlBoost 中的库老实说我不明白为什么这是 Boost 的一部分当需要向函数传递
如何只应用一种 clang-format 操作？

我想用clang 格式调整我的评论但仅此而已选项是 AlignTrailingComments bool 但是当我运行以下命令时 clang format 3 6 i style AlignTrailingComments true
获取无平方数的列表

获得该值的一种方法是自然数 1 n 我们对每个因子进行因式分解看看它们是否有重复的质因数但这对于大的情况来说会花费很多时间n 那么有没有更好的方法从 1 中获取无平方数n 您可以使用埃拉托斯特尼筛法的修改版本取一个布尔数组 1 n 预
如何将typescript添加到Vue 3和Vite项目中

我的设置我通过以下方式安装了 Vue 和 Vite创建 vite 应用程序模块然后将 init vite app 生成的所有包更新为 Vue 和 Vite 的最新 RC 版本现在我想对我的所有代码使用打字稿首先我只是玩了一下然后添
横切关注点示例

什么是一个很好的例子cross cutting concern 医疗记录示例维基百科 http en wikipedia org wiki Cross cutting concern页面对我来说似乎不完整具体来说从这个例子来看为什么日
规范注册 ID 和消息 ID 格式

我的理解有问题Canonical Registration Id并让谷歌返回它我特意注册了两次我的Android应用程序以测试Canonical Registration Id 但是当我尝试向两者推送消息时Registration Id
为什么需要为每个线程创建 ABAddressbookRef？

苹果说重要提示 ABAddressBookRef 的实例不能被多个使用线程每个线程必须创建自己的实例 But why 我知道某些特定的类或操作必须在主线程中完成而且我知道有些对象不是线程安全的这意味着如果这些对象同时被两个不同的线
创建一个跨浏览器 mixin 进行转换：旋转

我想为 sass 创建一个 mixin 它将对指定元素应用旋转 mixin 应采用一个参数表示要应用的旋转度数从 css3please com 我找到了一种使用 CSS 实现此功能的跨浏览器方法 box rotate moz trans
如何从特定 Sourceforge 项目下载所有文件？

在花了大约一个小时从 sourceforge 下载几乎每个 Msys 包之后我想知道是否有更聪明的方法来做到这一点是否可以使用 wget 来实现此目的我已经成功地使用了这个脚本 https github com SpiritQuadd
文件/文件夹结构的递归搜索

我正在尝试为返回文件和文件夹列表的 Web 服务构建递归搜索功能我创建了这两个方法因此它们充当递归搜索它首先获取顶级内容然后将任何文件添加到 fileList 并将任何子文件夹添加到 subFoldersList 我们传入访问级别
无限滚动 jQuery 和 Laravel 5 分页

我成功从控制器返回数据 public function index posts Post with status verified gt paginate 30 return view show gt with compact posts
使用 PSEXEC 远程启动和停止 Windows 服务

如何使用 PSEXEC 远程启动和停止 Windows 服务最好是编写语法我尝试了下面给出的 cmdlet psexec Server u Administrator p Somepassword ServiceName SysInter
虚拟继承 - 跳过构造函数

我有以下课程 class Socket Socket Socket SOCKET s class Connection public virtual Socket Connection IP ip 这两个类包含一些纯虚函数和一些非虚函数以及
useState 由于某种原因没有更新？

当我尝试使用 axios 从后端 API 获取一些数据并在由于某种原因获得结果后设置状态时状态不会更新当我尝试使用状态时它只会向我显示一个空数组但有趣的是当我console log res data 它会毫无问题地向我显示我的列表
设置restrict_xpaths设置后出现UnicodeEncodeError

我是 python 和 scrapy 的新手将restrict xpaths 设置设置为 table class lista 后我收到了以下回溯奇怪的是通过使用其他 xpath 规则爬虫可以正常工作 Traceback most

设置restrict_xpaths设置后出现UnicodeEncodeError

设置restrict_xpaths设置后出现UnicodeEncodeError 的相关文章

随机推荐

热门标签