为什么我的 Scrapy 中的输入/输出处理器不工作？

2024-04-22

我正在努力追随本教程 http://doc.scrapy.org/en/1.1/intro/tutorial.html.

我想要我的desc字段是标准化为单个空格且大写的单个字符串。

dmoz_spider.py

import scrapy
from tutorial.items import DmozItem

class DmozSpider(scrapy.Spider):
    name = "dmoz"
    allowed_domains = ["dmoz.org"]
    start_urls = [
        "http://www.dmoz.org/Computers/Programming/Languages/Python/Books/",
        "http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/"
    ]

    def parse(self, response):
        for sel in response.xpath('//ul/li'):
            item = DmozItem()
            item['title'] = sel.xpath('a/text()').extract()
            item['link'] = sel.xpath('a/@href').extract()
            item['desc'] = sel.xpath('text()').extract()
            yield item

我尝试根据声明声明输入/输出处理器http://doc.scrapy.org/en/latest/topics/loaders.html#declaring-input-and-output-processors http://doc.scrapy.org/en/latest/topics/loaders.html#declaring-input-and-output-processors

items.py

import scrapy
from scrapy.loader.processors import MapCompose, Join

class DmozItem(scrapy.Item):
    title = scrapy.Field()
    link = scrapy.Field()
    desc = scrapy.Field(
        input_processor=MapCompose(
            lambda x: ' '.join(x.split()),
            lambda x: x.upper()
        ),
        output_processor=Join()
    )

然而，我的输出结果仍然是这样。

{'desc': ['\r\n\t\r\n                                ',
          ' \r\n'
          '\t\t\t\r\n'
          '                                - By David Mertz; Addison Wesley. '
          'Book in progress, full text, ASCII format. Asks for feedback. '
          '[author website, Gnosis Software, Inc.]\r\n'
          '                                \r\n'
          '                                ',
          '\r\n                                '],
 'link': ['http://gnosis.cx/TPiP/'],
 'title': ['Text Processing in Python']}

我究竟做错了什么？

我正在使用 Python 3.5.1 和 Scrapy 1.1.0

我把我的整个代码放在这里：https://github.com/prashcr/scrapy_tutorial https://github.com/prashcr/scrapy_tutorial，以便您可以尝试并根据需要进行修改。

但是，您还可以在另一处指定要使用的输入和输出处理器：在项目字段元数据中。

我怀疑该文档具有误导性/错误（或者可能已经过时？），因为根据源代码，input_processor字段属性被读取仅在内部ItemLoader实例 https://github.com/scrapy/scrapy/blob/ebef6d7c6dd8922210db8a4a44f48fe27ee0cd16/scrapy/loader/__init__.py#L136，这意味着您无论如何都需要使用项目加载器。

您可以使用内置的并保留您的DmozItem定义如下：

from scrapy.loader import ItemLoader

class DmozSpider(scrapy.Spider):
    # ...

    def parse(self, response):
        for sel in response.xpath('//ul/li'):
            loader = ItemLoader(DmozItem(), selector=sel)
            loader.add_xpath('title', 'a/text()')
            loader.add_xpath('link', 'a/@href')
            loader.add_xpath('desc', 'text()')
            yield loader.load_item()

这样一来input_processor and output_processor将考虑项目字段参数并应用处理器。

或者您可以在内部定义处理器自定义项目加载器而不是Item class:

class DmozItem(scrapy.Item):
    title = scrapy.Field()
    link = scrapy.Field()
    desc = scrapy.Field()


class MyItemLoader(ItemLoader):
    desc_in = MapCompose(
        lambda x: ' '.join(x.split()),
        lambda x: x.upper()
    )

    desc_out = Join()

并用它来加载蜘蛛中的项目：

def parse(self, response):
    for sel in response.xpath('//ul/li'):
        loader = MyItemLoader(DmozItem(), selector=sel)
        loader.add_xpath('title', 'a/text()')
        loader.add_xpath('link', 'a/@href')
        loader.add_xpath('desc', 'text()')
        yield loader.load_item()

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

为什么我的 Scrapy 中的输入/输出处理器不工作？的相关文章

matplotlib 中的 R 风格数据轴缓冲区

R 绘图自动设置 x 和 y 限制以在数据和轴之间留出一些空间我想知道 matplotlib 是否有办法自动执行相同的操作如果没有是否有一个好的公式或经验法则来说明 R 如何设置其轴限制在 matplotlib 中您可以通过
python 3 argparse 调用函数

我想在 python3 中创建一个类似命令行类似 shell 的界面 Argparse 似乎负责解析和显示帮助错误消息根据argparse 的 python3 文档 https docs python org 3 5 library
Perl 是否有相当于 Python 的 `if __name__ == '__main__'` 的功能？

有没有一种方法可以确定当前文件是否是 Perl 源中正在执行的文件在 Python 中我们使用以下结构来做到这一点 if name main This file is being executed raise NotImplemente
在Python中以交互方式执行多行语句

我是 Python 世界的新手这是我用 Python 编写的第一个程序我来自 R 世界所以这对我来说有点不直观当我执行时 In 15 import math import random random random math sqrt
Python——捕获异常的效率[重复]

这个问题在这里已经有答案了可能的重复 Python 常见问题解答异常有多快 https stackoverflow com questions 8107695 python faq how fast are exceptions 我记得
如何使用 PyMongo 在重复键错误后继续插入

如果我需要在 MongoDB 中插入尚不存在的文档 db stock update one document set document upsert True 将完成这项工作如果我错了请随时纠正我但是如果我有一个文档列表并想将它们全
在 Linux 上的 Python 中使用受密码保护的 Excel 工作表

问题很简单我每周都会收到一堆受密码保护的 Excel 文件我必须解析它们并使用 Python 将某些部分写入新文件我得到了文件的密码当在 Windows 上完成此操作时处理起来很简单我只需导入 win32com 并使用 clie
Python 3在for循环中更改字典键的值不起作用

我的 python 3 代码没有按预期工作 def addFunc x y print x y def subABC x y z print x y z def doublePower base exp print 2 base exp d
使用 WSGI 在 Windows XAMPP 中设置 Python 路径

我正在 Webfaction 上设置实时服务器的开发版本在本地计算机上的虚拟 Apache 服务器环境运行没有任何错误中运行 Django 应用程序 XP 使用 Python 2 6 运行 XAMPP Lite 我可以提交更改通过 G
如何正确导入主代码和模块中同时使用的模块？

假设我有一个主脚本 main py 它导入另一个 python 文件import coolfunctions另一个 import chores 现在假设 Coolfunctions 也使用家务活中的东西因此我声明import chore
根据第三个变量更改散点图中的标记样式

我正在处理多列字典我想绘制两列然后根据第三列和第四列更改标记的颜色和样式我很难改变 pylab 散点图中的标记样式我的方法适用于颜色不幸的是不适用于标记样式 x 1 2 3 4 5 6 y 1 3 4 5 6 7 m k l l
用于多个窗口的 Tkinter 示例代码，为什么按钮无法正确加载？

我正在编写一个程序应该按一下按钮即可打开一个窗口按另一个按钮关闭新打开的窗口我使用类以便稍后可以将代码插入到更大的程序中但是我无法正确加载按钮 import tkinter as tk class Demo1 tk Frame
如何分析组合的 python 和 c 代码

我有一个由多个 python 脚本组成的应用程序其中一些脚本正在调用 C 代码该应用程序现在的运行速度比以前慢得多因此我想对其进行分析以查看问题所在是否有工具软件包或只是一种分析此类应用程序的方法有一个工具可以将 python
删除 HoloViews 中的 Bokeh 徽标

是否可以从 HoloViews 生成的图中删除 Bokeh 徽标没有什么反对的只是在某些报告中显示它可能没有意义我知道在 Bokeh 中我可以简单地执行以下操作 p bkp figure p toolbar logo None UPD
在Python中连续解析文件

我正在编写一个脚本该脚本使用 HTTP 流量行解析文件并取出域目前仅将它们打印到屏幕上我正在使用 httpry 将流量连续写入文件这是我用来删除域名的脚本 usr bin python import re input open r
在 scipy 中创建新的发行版

我试图根据我拥有的一些数据创建一个分布然后从该分布中随机抽取这是我所拥有的 from scipy import stats import numpy def getDistribution data kernel stats gauss
如何使用 os.chdir 转到减去最后一步的路径？

例如一个方法传递了一个路径作为参数这个路径可能是 C a b c d 如果我想使用 os chdir 更改为 C a b 怎么办 c 没有最后一个文件夹 os chdir 可以接受命令吗 os chdir 可以采取作为论点是的然
沿轴 0 重复 scipy csr 稀疏矩阵

我想重复 scipy csr 稀疏矩阵的行但是当我尝试调用 numpy 的重复方法时它只是将稀疏矩阵视为对象并且只会将其作为 ndarray 中的对象重复我浏览了文档但找不到任何实用程序来重复 scipy csr 稀疏矩阵的行我
ValueError：使用火炬张量时需要解压的值太多

对于神经网络项目我使用 Pytorch 并使用 EMNIST 数据集已经给出的代码加载到数据集中 train dataset dsets MNIST root data train True transform transforms T
将两个反斜杠替换为一个反斜杠

我想用单个反斜杠替换带有两个反斜杠的字符串但是替换似乎不接受作为替换字符串这是解释器的输出 gt gt gt import tempfile gt gt gt temp folder tempfile gettempdir gt g

随机推荐

如何使argparse在可执行程序中工作

我有一个使用 argparse 模块的命令行脚本 import argparse def run print Running def export print Exporting def argument parser parser arg
连接两个整数并将结果作为 SQL 中的字符串

在表中 2 个字段 ID 为 int Number 为小 int 我想连接这两个字段并显示为字符串 eg ID 101 and Number 9 output 101 9 ID 和 Number 之间要加点吗如何用SQL进行查询 You
按日期订购 asp.net MVC 5

我有一个创建新闻条目并显示 10 条新闻的应用程序它应该显示 10 条最新新闻现在它显示 10 个最旧的新闻我该如何更改它我是否更改控制器以便数据按日期排序或者我可以在视图中执行吗控制器 public ActionResul
postgres 检测零的重复模式

有没有办法在 Postgres 的时间序列中检测长度至少为 3 的零子序列 year value 1 0 2 0 3 0 4 33 5 72 6 0 7 0 8 0 9 0 10 25 11 0 12 56 13 37 因此在此示例中我
从链接服务器插入存储过程的结果

是否可以将远程存储过程的结果插入到临时表中例如 CREATE TABLE test id INT INSERT INTO test EXEC linkedserver remoteDB dbo tst DROP TABLE test 其中
Textview 在 Imageview 上滚动，就像 Pulse 应用程序滚动一样

In my application I want to scroll the text on Image view like Pulse application Need not scroll inside the text view Pl
分离Gdb而不恢复劣质

Gdb 与任何其他程序一样并不完美我时不时会遇到导致当前 Gdb 实例无法使用的错误此时如果我有一个调试会话其中有很多有价值的状态我希望能够在其上启动一个新的 Gdb 会话也就是说分离退出 Gdb 并启动一个新的 Gdb
如何使用 XPath 选择多个可能的文本值？

我必须从类似于下面的评级标签中选择评级代码但仅限于机构为 SP 或 SNP 时现在我有 ratings rating agency text SNP text SP code 但这似乎不起作用我究竟做错了什么
使用和不使用查询字符串路由旧请求

开始之前我知道this https stackoverflow com q 7395841 and this https stackoverflow com q 817325 我想找到一个更简洁的解决方案如果可能的话对于一个稍微更具体
使用 OpenCL 或其他 GPGPU 框架在现代 x86 硬件上的 CPU 和 GPU 之间共享数据

AMD Kaveri 的 hUMA 异构统一内存访问和 Intel 第四代 CPU 证明了 CPU 和 GPU 硬件的不断统一应该允许 CPU 和 GPU 之间进行无副本的数据共享我想知道最新的 OpenCL 或其他 GPGPU 框
Python 从数据库存储和检索密码的最安全方法

希望将用户名和密码存储在数据库中并且想知道最安全的方法是什么我知道我必须在某处使用盐但不确定如何安全地生成它或如何应用它来加密密码一些示例 Python 代码将不胜感激谢谢将密码盐存储为哈希值和盐看看Django是如何做的
如何在Android中的图像上绘画并将图像保存到手机图库

我的目的是将绘制的图像与我的背景视图一起保存到画廊 public boolean onTouch View view MotionEvent event draw the new Points to our internal canvas
将 tzinfo 插入日期时间

我有以下内容tzinfo具体子类定义 from datetime import datetime timedelta tzinfo class ManilaTime tzinfo def utcoffset self dt return t
Python从单个numpy数组中的多个文件获取数据的快速方法

我需要读取存储在许多格式相同但长度不同的文件中的数据即相同的列但行数不同此外我需要将每一列数据存储在一个数组中最好是一个 numpy 数组但列表也可以接受现在我循环读取每个文件numpy loadtxt 然后连接结果数组假
如何在 LaTeX 表中仅显示四舍五入到整数的系数？

使用 R 在 LaTeX 中生成表格stargazer效果很好但我不知道如何将我的数字格式化为整数这个帖子 https stackoverflow com questions 39937400 decimal numbers in r
PHP GDAL/OGR 库的使用，哪种方法更干净？

我将在新项目中使用 gdal ogr 我想要一个精简但功能齐全的应用程序因此不会使用其他实现例如地图服务器因为它们具有我怀疑应用程序中是否需要的无关组件即使在将来也是如此根据记录它是一个 GIS 但我在这里询问是因为 php 中
Jackson json反序列化，忽略json中的根元素

如何忽略 json 中的父标签这是我的 json String str parent a id 10 name Foo 这是要从 json 映射的类 public class RootWrapper private List
.NET“隔离存储”存储在哪里？

物理文件在哪里这取决于操作系统以及是否启用漫游用户配置文件例如在 XP 上使用非漫游配置文件时位置为
Asp.net：委托（“操作”）可以序列化为控制状态吗？

我正在实现一个用户控件该控件具有一个将 Action 委托作为参数的方法尝试将委托存储在控制状态中会产生序列化错误是否有可能将委托序列化为控制状态 BP 这并不容易而且可能会引发潜在问题理论上可以使用反射来确定委托正在调用对象的哪
为什么我的 Scrapy 中的输入/输出处理器不工作？

我正在努力追随本教程 http doc scrapy org en 1 1 intro tutorial html 我想要我的desc字段是标准化为单个空格且大写的单个字符串 dmoz spider py import scrapy fro

为什么我的 Scrapy 中的输入/输出处理器不工作？

为什么我的 Scrapy 中的输入/输出处理器不工作？ 的相关文章

随机推荐

热门标签

为什么我的 Scrapy 中的输入/输出处理器不工作？的相关文章