如何删除 Scrapy Spider 数据中的空白

2024-02-20

我正在用 Scrapy 编写我的第一个蜘蛛并尝试遵循文档。我已经实现了 ItemLoaders。蜘蛛提取数据，但数据包含许多行返回。我尝试了很多方法来删除它们，但似乎没有任何效果。 Replace_escape_chars 实用程序应该可以工作，但我不知道如何将它与ItemLoader。也有人使用（unicode.strip），但同样，我似乎无法让它工作。有些人尝试在 items.py 中使用它们，而另一些人则尝试在蜘蛛中使用它们。如何清除这些行返回（\r\n）的数据？我的 items.py 文件仅包含项目名称和 field()。蜘蛛代码如下：

from scrapy.spider import BaseSpider
from scrapy.selector import HtmlXPathSelector
from scrapy.contrib.loader import XPathItemLoader
from scrapy.utils.markup import replace_escape_chars
from ccpstore.items import Greenhouse

class GreenhouseSpider(BaseSpider):
    name = "greenhouse"
    allowed_domains = ["domain.com"]
    start_urls = [
        "http://www.domain.com",
    ]

    def parse(self, response):
        items = []
        l = XPathItemLoader(item=Greenhouse(), response=response)
        l.add_xpath('name', '//div[@class="product_name"]')
        l.add_xpath('title', '//h1')
        l.add_xpath('usage', '//li[@id="ctl18_ctl00_rptProductAttributes_ctl00_liItem"]')
        l.add_xpath('repeat', '//li[@id="ctl18_ctl00_rptProductAttributes_ctl02_liItem"]')
        l.add_xpath('direction', '//li[@id="ctl18_ctl00_rptProductAttributes_ctl03_liItem"]')
        items.append(l.load_item())

        return items

您可以使用default_output_processor在装载机以及各个领域的其他处理器上，请参阅title:

from scrapy.spider import BaseSpider
from scrapy.contrib.loader import XPathItemLoader
from scrapy.contrib.loader.processor import Compose, MapCompose
from w3lib.html import replace_escape_chars, remove_tags
from ccpstore.items import Greenhouse

class GreenhouseSpider(BaseSpider):
    name = "greenhouse"
    allowed_domains = ["domain.com"]
    start_urls = ["http://www.domain.com"]

    def parse(self, response):
        l = XPathItemLoader(Greenhouse(), response=response)
        l.default_output_processor = MapCompose(lambda v: v.strip(), replace_escape_chars)
        l.add_xpath('name', '//div[@class="product_name"]')
        l.add_xpath('title', '//h1', Compose(remove_tags))
        l.add_xpath('usage', '//li[@id="ctl18_ctl00_rptProductAttributes_ctl00_liItem"]')
        l.add_xpath('repeat', '//li[@id="ctl18_ctl00_rptProductAttributes_ctl02_liItem"]')
        l.add_xpath('direction', '//li[@id="ctl18_ctl00_rptProductAttributes_ctl03_liItem"]')

        return l.load_item()

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

webscraping

Scrapy

如何删除 Scrapy Spider 数据中的空白的相关文章

如何 clickElement() 并在同一选项卡中打开链接，而不是在新窗口中？

我的网页中有以下 html 元素 a target self href View Data Set a 我在 Rselenium 中使用以下命令来查找该标签 webElem lt remDr findElement using xpath
好斗的。开始爬行后如何更改蜘蛛设置？

我无法更改解析方法中的蜘蛛设置但这绝对是一个办法例如 class SomeSpider BaseSpider name mySpider allowed domains example com start urls http examp
使用 Python 抓取和解析 Google 搜索结果

我问了一个question https stackoverflow com questions 7722876 web mining or scraping or crawling what tool library should i us
使用 nokogiri 干式搜索网站的每个页面

我想搜索网站的每个页面我的想法是找到页面上保留在域内的所有链接访问它们然后重复我也必须采取措施避免重复努力所以开始很容易 page http example com nf Nokogiri HTML open page link
在需要身份验证的地方使用 BeautifulSoup

我正在使用 BeautifulSoup4 和 Python 请求为公司项目抓取 LAN 数据由于该网站有登录界面因此我无权访问数据登录界面是一个弹出窗口不允许我在没有登录的情况下访问页面源或检查页面元素我得到的错误是这样的访问错
如何在 Scrapy/Twisted 中使用线程，即如何在响应回调中对阻塞代码进行异步调用？

我需要在Scrapy中运行一些多线程多处理工作因为我有一些使用阻塞调用的库并在完成后将请求放回Scrapy引擎我需要这样的东西 def blocking call self html do some work in blocking
使用 javascript/jquery 仅选择特定元素后面的文本

如下面的代码片段所示我有多个文本 div 其中有粗体部分然后是换行符然后是一段文本我可以 find 粗体部分但如何使用 javascript jquery 只获取粗体部分后面换行符后面的文本部分 div class thecont
如何抓取 javascript 哈希链接内容？

您好我对使用 Puppeteer 进行网页抓取有点陌生目前我面临下一个问题在我尝试提取信息的网站中我有一个带有典型 js 分页的引导表例如以下示例 https getbootstrap com docs 4 1 component
使用 selenium 登录 stackoverflow 可以正常工作，但使用 scrapy python 则不行。如何使用无头浏览登录？

我一直在尝试自动登录 stackoverflow 来学习网络抓取首先我尝试了 scrapy 但使用下面的代码我并没有那么幸运 import scrapy from scrapy utils response import open in
给定一个引文表，如何反向查找每个引文的数字对象标识符？

我有一个引文表其中包括第一作者的姓氏标题期刊年份和每次引文的页码我已将表格的前几行发布在它也可以以请注意有些记录确实not有 DOI 我希望能够查询这些引文的 DOI 对于标题最好查询能够处理某种形式的模糊匹配我怎样才能
网络抓取未知数据结构（JSON、嵌套列表或其他什么？）

我构建了一个网络抓取工具this https campus datacamp com courses intro to python for data science chapter 1 python basics该页面取决于将字符串解析为
R 在 readHTMLTable 调用维基百科时崩溃

尝试抓取维基百科页面类似的事情我之前已经做过很多次了 library XML myURL lt http en wikipedia org wiki List of US Open MenUs Singles champions y lt
PHPQuery WebBrowser 插件 - 使用 cookies

我正在尝试使用 PHPQuery 的 WebBrowser 插件登录网站我能够成功登录但我不确定如何重用上一次调用中的 cookie 到下一次调用 client phpQuery browserGet https website com
在同一进程中多次运行Scrapy

我有一个网址列表我想抓取其中的每一个请注意将此数组添加为start urls不是我正在寻找的行为我希望它在单独的爬网会话中一一运行我想在同一个进程中多次运行Scrapy 我想将 Scrapy 作为脚本运行如常见做法 https
WPF 无法从 url 检索 WebP 图像？

我无法从网址检索图像以前在设置 HttpClient 标头之前我根本无法连接到该站点我可以从其他来源检索图像但不能从这个特定来源检索图像检索图像的代码 var img new BitmapImage img BeginInit
如何保护我的网站免遭 HTTrack 或其他软件的翻录？

我最近获得了批准的网站模板主题森林 http themeforest net 我的网站流量过多并注意到我在 Themeforest 上的演示被 HTTrack 等某些软件破坏如果这种情况持续下去该产品的销量最终可能会下降那么有什么
如何从网站中抓取动态内容？

所以我使用 scrapy 从亚马逊图书部分抓取数据但不知何故我知道它有一些动态数据我想知道如何从网站中提取动态数据到目前为止我已经尝试过以下方法 import scrapy from items import AmazonsItem
访问 Scrapy 内的 django 模型

是否可以在 Scrapy 管道内访问我的 django 模型以便我可以将抓取的数据直接保存到我的模型中我见过this https scrapy readthedocs org en latest topics djangoitem ht
Python BS4 Scraper 仅返回每个页面的前 9 个结果

我让这段代码按预期工作只是它并没有完全按预期工作一切似乎都很顺利直到我检查了我的 csv 输出文件并注意到我每页只得到前 9 个结果每页应该有 40 个结果因此我得到的结果少于预期的 25 有什么想法吗 import reques
如何使用scrapy Selector获取节点的innerHTML？

假设有一些 html 片段例如 a text in a b text in b b a

随机推荐

使用图权重提升深度优先访问者最小生成树

我想从具有边权重的顶点创建最小生成树并以深度优先顺序遍历图我可以构建图表和最小生成树但我无法编写自定义访问者 include
WinHttpSendRequest 失败并显示 ERROR_WINHTTP_SECURE_FAILURE

以编程方式与网络进行通信不是我的专业领域但我设法通过从网上找到的示例中剪切和粘贴代码来创建 read web page 函数并且该代码已经连续好几个月每天正常运行碰巧的是我工作时的主 Windows 10 电脑坏了在等待维修时我
PHP - 读取和修复大型无效 XML 文件

我必须读取一些相当重的 XML 文件 200 MB 到 1 GB 之间其中一些文件是无效的让我举一个小例子
为什么最终没有被调用？

我有几个关于java中的垃圾收集器的问题 Q1 据我了解当对象超出范围并且 JVM 即将收集垃圾时 finalize 就会被调用我认为 Finalize 方法是由垃圾收集器自动调用的但在这种情况下它似乎不起作用解释是什么为什么需要
ObjC Plist 文件读取比 JSON 快？

我做过这个测试项目https github com danielpetroianu FileDeserializeBenchmarking https github com danielpetroianu FileDeserializeBe
jQuery 错误？ .appendTo() 在 IE7 中不起作用

我正在尝试为 jQuery 创建一个选项传输插件我可以在 Opera Firefox Chrome 和 Safari 中使用基本功能但 IE7 无法配合 IE7 中的传递函数的运行似乎非常零散且难以理解我创造了一个示例页面来说明我的问
Three.JS - 粒子沿随机方向绕点运行形成球体

我有一个粒子系统其中所有粒子都位于相同的坐标处并且在随机方向上一个接一个地它们应该开始绕场景中心运行形成一个球体到目前为止我成功实现的是一组 Vector3 对象粒子它们一个接一个地开始沿着 Z 轴绕中心运行只需根据当
将 bigint 转换为日期时间

我想将一个值从 bigint 转换为 datetime 例如我正在阅读HISTORY表的团队城市服务器在场上构建启动时间服务器我在一条记录 1283174502729 上有这个值如何将其转换为日期时间值这对你有用吗它在 SQL
xsl string-join() 多个变量 - 仅使用非空

我想创建几个 xsl variable 它们可能为空也可能不为空然后加入它们
BigQuery 中有自动增量吗？

BigQuery 中是否有 AUTO INCRMENT SERIAL IDENTITY 或序列之类的内容我知道 ROW NUMBERhttps cloud google com bigquery query reference row n
如何快速检查是否使用 Perl 安装了 Linux `unzip`？

如何快速检查是否是Linuxunzip是使用 Perl 安装的吗 which unzip 如果有输出则它指向解压缩的位置如果没有输出则不会显示任何内容这依赖于解压缩在您的路径上
UISegmentedControl setSelectedSegmentIndex：没有 valueChanged 操作

我正在通过代码设置 UISegmentedControl 的 selectedSegmentIndex 每当我这样做时就会调用 valueChanged 操作这对我来说听起来很合乎逻辑但是有没有办法在不调用操作的情况下设置选定的段它
Powershell 更新失败

当我跑步时Update Help它在 Powershell 中失败我不通过代理这是直接访问我还以管理员身份运行 Powershell 我不知道还要检查什么欢迎任何建议这是我的版本 PSVersionTable Name Value
如何确定 Windows/IIS 上的文件编码？

从答案到这个问题 https stackoverflow com questions 2453647 why are accented characters rendering inconsistently when accessing t
我如何显示提交做了什么？

我知道的一个愚蠢的方法是 git diff commit number1 commit number2 有没有更好的办法我的意思是我想知道 commit1 本身我不想在它之前添加 commit2 作为参数 git show
将 WPF 控件设置为扩展以填充可用空间，仅此而已

如何设置 WPF 控件来填充其父级容器中的可用空间但不展开父级以下代码片段描述了我正在尝试的布局我想要Grid伸展以适应Expander 我想要ListBox只为了填补Grid 我想要ListBox的滚动条出现时Grid太小无法显示
如何在 Airflow 2.x 中将 XComArg 转换为字符串值？

Code from airflow models import BaseOperator from airflow utils decorators import apply defaults from airflow providers
逻辑：tr_rev_ Correct 的辅助引理

在逻辑章节中介绍了反向列表函数的尾递归版本我们需要证明它可以正确工作 Fixpoint rev append X l1 l2 list X list X match l1 with gt l2 x l1 gt rev append l1
.NET Compact Framework 3.5 上是否提供像 AutoMapper 这样的映射库？

是否有人在研究 AutoMapper 的 NET Compact Framework 端口或者是否有任何类似的 NET Compact Framework 映射库你可以建立在奥姆地图绘制器 https stackoverflow com
如何删除 Scrapy Spider 数据中的空白

我正在用 Scrapy 编写我的第一个蜘蛛并尝试遵循文档我已经实现了 ItemLoaders 蜘蛛提取数据但数据包含许多行返回我尝试了很多方法来删除它们但似乎没有任何效果 Replace escape chars 实用程序应该可以工

如何删除 Scrapy Spider 数据中的空白

如何删除 Scrapy Spider 数据中的空白 的相关文章

随机推荐

热门标签

如何删除 Scrapy Spider 数据中的空白的相关文章