Scrapy - 从表中提取项目

2023-11-27

试图了解 Scrapy，但遇到了一些死胡同。

我在一页上有 2 个表，想从每个表中提取数据，然后移至下一页。

表看起来像这样（第一个称为 Y1，第二个称为 Y2）并且结构相同。

<div id="Y1" style="margin-bottom: 0px; margin-top: 15px;">
                                <h2>First information</h2><hr style="margin-top: 5px; margin-bottom: 10px;">                    

                <table class="table table-striped table-hover table-curved">
                    <thead>
                        <tr>
                            <th class="tCol1" style="padding: 10px;">First Col Head</th>
                            <th class="tCol2" style="padding: 10px;">Second Col Head</th>
                            <th class="tCol3" style="padding: 10px;">Third Col Head</th>
                        </tr>
                    </thead>
                    <tbody>

                        <tr>
                            <td>Info 1</td>
                            <td>Monday 5 September, 2016</td>
                            <td>Friday 21 October, 2016</td>
                        </tr>
                        <tr class="vevent">
                            <td class="summary"><b>Info 2</b></td>
                            <td class="dtstart" timestamp="1477094400"><b></b></td>
                            <td class="dtend" timestamp="1477785600">
                            <b>Sunday 30 October, 2016</b></td>
                        </tr>
                        <tr>
                            <td>Info 3</td>
                            <td>Monday 31 October, 2016</td>
                            <td>Tuesday 20 December, 2016</td>
                        </tr>


                    <tr class="vevent">
                        <td class="summary"><b>Info 4</b></td>                      
                        <td class="dtstart" timestamp="1482278400"><b>Wednesday 21 December, 2016</b></td>
                        <td class="dtend" timestamp="1483315200">
                        <b>Monday 2 January, 2017</b></td>
                    </tr>



                </tbody>
            </table>

正如你所看到的，结构有点不一致，但只要我能得到每个 td 并输出到 csv 那么我就会很高兴。

我尝试使用 xPath 但这只会让我更加困惑。

我的最后一次尝试：

import scrapy

class myScraperSpider(scrapy.Spider):
name = "myScraper"

allowed_domains = ["mysite.co.uk"]
start_urls =    (
                'https://mysite.co.uk/page1/',
                )

def parse_products(self, response):
    products = response.xpath('//*[@id="Y1"]/table')
    # ignore the table header row
    for product in products[1:]  
       item = Schooldates1Item()
       item['hol'] = product.xpath('//*[@id="Y1"]/table/tbody/tr[1]/td[1]').extract()[0]
       item['first'] = product.xpath('//*[@id="Y1"]/table/tbody/tr[1]/td[2]').extract()[0]
       item['last'] = product.xpath('//*[@id="Y1"]/table/tbody/tr[1]/td[3]').extract()[0]
       yield item

这里没有错误，但它只是返回大量有关爬网的信息，但没有实际结果。

Update:

  import scrapy

       class SchoolSpider(scrapy.Spider):
name = "school"

allowed_domains = ["termdates.co.uk"]
start_urls =    (
                'https://termdates.co.uk/school-holidays-16-19-abingdon/',
                )

  def parse_products(self, response):
  products = sel.xpath('//*[@id="Year1"]/table//tr')
 for p in products[1:]:
  item = dict()
  item['hol'] = p.xpath('td[1]/text()').extract_first()
  item['first'] = p.xpath('td[1]/text()').extract_first()
  item['last'] = p.xpath('td[1]/text()').extract_first()
  yield item

这给我：IndentationError：意外缩进

如果我运行下面修改后的脚本（感谢@Granitosaurus）以输出到 CSV (-o schoolDates.csv)，我会得到一个空文件：

import scrapy

class SchoolSpider(scrapy.Spider):
name = "school"
allowed_domains = ["termdates.co.uk"]
start_urls = ('https://termdates.co.uk/school-holidays-16-19-abingdon/',)

def parse_products(self, response):
    products = sel.xpath('//*[@id="Year1"]/table//tr')
    for p in products[1:]:
        item = dict()
        item['hol'] = p.xpath('td[1]/text()').extract_first()
        item['first'] = p.xpath('td[1]/text()').extract_first()
        item['last'] = p.xpath('td[1]/text()').extract_first()
        yield item

这是日志：

2017-03-23 12:04:08 [scrapy.core.engine] 信息：蜘蛛打开 2017-03-23 12:04:08 [scrapy.extensions.logstats] 信息：已爬网 0 页数 (0 页/分钟), 刮掉 0 条 (0 条/分钟) 2017-03-23 12:04:08 [scrapy.extensions.telnet] 调试：Telnet 控制台监听于... 2017-03-23 12:04:08 [scrapy.core.engine] 调试：爬行（200） https://termdates.co.uk/robots.txt>（参考：无）2017-03-23 12:04:08 [scrapy.core.engine] 调试：爬行 (200) https://termdates.co.uk/school-holidays-16-19-abingdon/> （参考：无）2017-03-23 12:04:08 [scrapy.core.scraper]错误：蜘蛛错误处理 https://termdates.co.uk/school-holidays-16-19-abingdon/> （参考：没有任何）回溯（最近一次调用最后一次）：文件 “c:\python27\lib\site-packages\twisted\internet\defer.py”，第 653 行，在_runCallbacks中 current.result = 回调(current.result, *args, **kw) 文件 "c:\python27\lib\site-packages\scrapy-1.3.3-py2.7.egg\scrapy\spiders__init__.py", 第 76 行，解析中 raise NotImplementedError NotImplementedError 2017-03-23 12:04:08 [scrapy.core.engine] INFO：关闭蜘蛛（已完成）2017-03-23 12:04:08 [scrapy.statscollectors] 信息：转储 Scrapy 统计数据： {'下载者/request_bytes'：467，'下载者/request_count'：2， '下载器/request_method_count/GET'：2， '下载器/response_bytes'：11311，'下载器/response_count'：2， 'downloader/response_status_count/200': 2, 'finish_reason': '完成', 'finish_time': datetime.datetime(2017, 3, 23, 12, 4, 8, 845000), 'log_count/DEBUG': 3, 'log_count/ERROR': 1, 'log_count/INFO': 7, 'response_received_count': 2, '调度程序/出队'：1，'调度程序/出队/内存'：1， '调度程序/排队': 1, '调度程序/排队/内存': 1, 'spider_exceptions/NotImplementedError'：1，'start_time'： datetime.datetime(2017, 3, 23, 12, 4, 8, 356000)} 2017-03-23 12:04:08 [scrapy.core.engine] INFO: Spider 已关闭（已完成）

Update 2：（跳过行）这会将结果推送到 csv 文件，但会跳过每隔一行。

外壳显示{'hol'：无，'最后'：u'\r\n\t\t\t\t\t\t\t\t'，'第一个'：无}

import scrapy

class SchoolSpider(scrapy.Spider):
name = "school"
allowed_domains = ["termdates.co.uk"]
start_urls = ('https://termdates.co.uk/school-holidays-16-19-abingdon/',)

def parse(self, response):
    products = response.xpath('//*[@id="Year1"]/table//tr')
    for p in products[1:]:
        item = dict()
        item['hol'] = p.xpath('td[1]/text()').extract_first()
        item['first'] = p.xpath('td[2]/text()').extract_first()
        item['last'] = p.xpath('td[3]/text()').extract_first()
        yield item

Solution：谢谢 @vold这会抓取start_urls中的所有页面并处理不一致的表布局

# -*- coding: utf-8 -*-
import scrapy
from SchoolDates_1.items import Schooldates1Item

class SchoolSpider(scrapy.Spider):
name = "school"
allowed_domains = ["termdates.co.uk"]
start_urls = ('https://termdates.co.uk/school-holidays-16-19-abingdon/',
              'https://termdates.co.uk/school-holidays-3-dimensions',)

def parse(self, response):
    products = response.xpath('//*[@id="Year1"]/table//tr')
    # ignore the table header row
    for product in products[1:]:
        item = Schooldates1Item()
        item['hol'] = product.xpath('td[1]//text()').extract_first()
        item['first'] = product.xpath('td[2]//text()').extract_first()
        item['last'] = ''.join(product.xpath('td[3]//text()').extract()).strip()
        item['url'] = response.url
        yield item

您需要稍微更正您的代码。由于您已经选择了表中的所有元素，因此无需再次指向表。因此你可以将你的 xpath 缩短为这样的td[1]//text().

def parse_products(self, response):
    products = response.xpath('//*[@id="Year1"]/table//tr')
    # ignore the table header row
    for product in products[1:]  
       item = Schooldates1Item()
       item['hol'] = product.xpath('td[1]//text()').extract_first()
       item['first'] = product.xpath('td[2]//text()').extract_first()
       item['last'] = product.xpath('td[3]//text()').extract_first()
       yield item

编辑了我的答案，因为 @stutray 提供了网站的链接。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

xpath

Scrapy

Scrapy - 从表中提取项目的相关文章

HtmlAgilityPack - 获取文档中的所有节点

我想使用 HtmlAgilityPack 遍历文档中的所有节点将要 foreach HtmlNode node in myhtml DocumentNode SelectNodes do 你可以循环遍历myhtml DocumentNod
Scrapy 仅抓取每个页面的第一个结果

我目前正在尝试运行以下代码但它只保留每个页面的第一个结果知道可能是什么问题吗 from scrapy contrib spiders import CrawlSpider Rule from scrapy contrib linkext
从部分 XPath 获取完整 XPath

我正在使用 selenium 和 perl 并在页面上有标签要访问此标签我有以下 xpath text some here 需要获取该元素的完整 xpath 的问题例如 html body table tr any other and
如何从下面的html中提取数据？

我想要从中提取数据的 Html 是 div class infoMessageInner p span class ng binding Fiber r best lld till adressen Tj nsterna kan du be
Selenium 与 scrapy 的动态页面

我正在尝试使用 scrapy 从网页中抓取产品信息我要抓取的网页如下所示从包含 10 个产品的 Product list 页面开始单击下一步按钮将加载接下来的 10 个产品两个页面之间的 URL 不会改变我使用 LinkExt
加快网络抓取速度

我正在使用一个非常简单的网络抓取工具抓取 23770 个网页scrapy 我对 scrapy 甚至 python 都很陌生但设法编写了一个可以完成这项工作的蜘蛛然而它确实很慢爬行 23770 个页面大约需要 28 小时我看过scr
如何使用XPath选择非空段落？

我想要抓取的网页具有类似的结构每个都有一个段落是一个问题一个段落是一个答案我想抓取每个问题和答案并将它们存储在两个项目中问题是在某些页面上问题和答案分别是 xxx p 1 and xxx p 2 但在其他页面上 xxx p 1
Scrapy：AttributeError：“列表”对象没有属性“iteritems”

这是我关于堆栈溢出的第一个问题最近想用linkedin 刮刀 https github com junks linkedInScraper 所以我下载并指示 scrapycrawl linkedin com 并收到以下错误消息供您参考
libxmljs 的替代品 [关闭]

Closed 此问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案目标使用 Node js 访问网页使用 xpath 语法操作 DOM 并打印新的 DOM libxm
Python Scrapy：allowed_domains从数据库添加新域

我需要向 allowed domains 添加更多域因此我没有收到已过滤的异地请求我的应用程序获取从数据库获取的网址因此我无法手动添加它们我试图覆盖蜘蛛init 像这样 def init self super CrawlSpide
scrapy LinkExtractors 最终会得到唯一的链接吗？

所以我有一个包含很多文章和页码的页面现在如果我想提取一篇文章我会使用 Rule LinkExtractor allow article html callback parse article 对于页面我使用这个规则规则 LinkE
如何使用 selenium 和 Mocha 获取 xPath() 选择的锚标记的文本

我已经成功选择了 a 标签我想显示锚标记的文本但无法这样做我正在使用 selenium mocha javascript 和 phantomJS 这是我的脚本详细 var assert require assert var test
Scrapy Spider不存储状态（持久状态）

您好有一个基本的蜘蛛可以运行以获取给定域上的所有链接我想确保它保持其状态以便它可以从离开的位置恢复我已按照给定的网址进行操作http doc scrapy org en latest topics jobs html http d
如何更新 PHP 中 xpath 的版本？ [复制]

这个问题在这里已经有答案了可能的重复 XPath 2 0 和或 XSLT 2 0 是否会在 PHP 中实现 https stackoverflow com questions 2085632 will xpath 2 0 and or
我的扩展中未收到 Scrapy Spider_idle 信号

我在几个蜘蛛之间有共同的行为spider idle正在接收信号我想将此行为移至扩展中我的分机已经监听spider opened and spider closed信号成功但是那spider idle未收到信号这是我的扩展为简洁起
用于从链接中选择文本的 xpath 表达式

我有这样的html文件内容 a class bf title Link to book href book 229920 book name a 帮我构造 xpath 表达式来获取链接文本书名我尝试使用 a 但表达式计算时没有结果如果
XPath 将元素中的所有文本作为一个值获取，删除换行符

我试图获取以下一组节点中的所有文本并作为一个值返回而不是多个节点 p I love eating out br br This is my favorite restaurant br I will definitely be back
如何添加剧作家的等待时间

我正在将 scrapy 与 playwright 集成但发现自己在单击后添加计时器时遇到困难因此当我点击后截取页面的屏幕截图时它仍然挂在登录页面上如何集成计时器以便页面等待几秒钟直到页面加载选择器 onetrust close
xpath+ 正则表达式：匹配文本

我正在尝试编写一个 xpath 以便仅返回包含文本和数字的节点我想使用正则表达式并希望这能起作用 td matches text d 谁能帮我理解我在这里做错了什么 tr td 1 td td 10 td td a td tr 你缺少量化
避免由于相对 URL 导致的错误请求

我正在尝试使用Scrapy抓取一个网站并且我想要抓取的每个页面的url都是使用这种相对路径编写的 a href en item to scrap html Link a 现在在我的浏览器中这些链接可以工作您可以访问类似的网址http

随机推荐

BeautifulSoup find_all() 是否保留标签顺序？

我希望使用 BeautifulSoup 来解析一些 HMTL 我有一张有几行的桌子我试图找到满足某些条件某些属性值的行并稍后在我的代码中使用该行的索引问题是 find all 保留它返回的结果集中的行顺序我在中没有找到这个do
计算 JSON 元素中项目的出现次数

我正在使用 Python 来解析英国警察 API 我想要的是分析我收到的 JSON 响应以计算特定攻击发生的次数这是 API 响应的示例 category anti social behaviour location type Forc
根据覆盖背景区域的亮度更改文本颜色？

我正在寻找一种插件或技术可以根据其父背景图像或颜色所覆盖的像素的平均亮度来更改文本的颜色或在预定义的图像图标之间切换如果背景的覆盖区域相当暗请将文本设置为白色或切换图标此外如果脚本能够注意到父级是否没有定义的背景颜色或图像然后
如何为 VBA 应用程序创建产品密钥以防止软件的非法分发？

我正在开发 Excel VBA 应用程序我的公司想把它变成一个产品该应用程序只能安装在一个系统上有人可以帮我解决这个问题吗这只是一个基本示例说明如何确保您的产品仅安装在一个系统上 Logic 检索硬件 ID 例如硬盘编号 CPU
为什么有人会使用 Java Thread 无参数构造函数？

在什么情况下有人会使用 Java Thread 类的无参构造函数 API 说这个构造函数与Thread null null gname 作用相同其中 gname 是新生成的名称如果我错了请纠正我但我认为实例化新的 Thread 对
ASP.net MVC 3 jQuery 验证；禁用不显眼的 OnKeyUp？

有没有办法禁用某个验证器信用卡的 jQuery 验证以便它只发生 onblur 而不是 onkeyup 根据 jQuery Validator 文档我想我可以做这样的事情 function data val creditcard v
WCF 底层连接已关闭：接收时发生意外错误

我正在使用 RestClient 应用程序与我的 WCF 服务进行通信并且出现以下异常 The underlying connection was closed An unexpected error occurred on a rece
如何强制 iFrame 在加载后重新加载

我有许多 iframe 可以在我的页面上加载特定内容父级和 iframe 都位于同一域中我的 iframe 内有一个滚动条它似乎无法在所有浏览器中正确加载但当我刷新 iframe 时它加载完美我不知道它为什么这样做我使用了元
PHP 5.3.0 USE 关键字——如何在 5.2 中向后移植？

我有一些使用 PHP 中的 USE 函数为 php 5 3 0 编写的代码有人可以帮我更改它以适用于 5 2 9 吗 available array filter objects function object use week retu
使用 matplotlib python 将表格与 x 轴对齐

我正在尝试让 python 表来对齐条形图例如在附图中您将看到 x 轴未与 python 表格下方的垂直线正确对齐我尝试修改图形的比例我希望表格的字体大小为 40 以便在打印 IEEEtran 论文时可以看到它 usr bin e
如何使用 Visual Studio 2017 创建 Nuget 包

我正在使用 net 4 5 类库 dll 构建Visual Studio 2017 我希望将这个dll以及一些相关的javascript html css等文件的文件夹打包为NuGet包裹不幸的是我不知道从哪里开始我能找到的唯一创建说
为什么 clang 不警告从 double 到 int 的隐式转换，但在从 long 到 int 时却警告？

在下面的代码中 include
修复 Xcode 难以辨认的内联错误突出显示问题？

我不能成为那个only one它发现 Xcode 的指出你的错误所在的方法荒谬该功能虽然有用且重要但确实如此not帮助制作我需要修复的线路几乎不可能阅读或编辑更不用说查看不要让我开始不断地努力寻找一种可见的选择颜色但又保
在 C++11 中使用静态变量是否有惩罚

在 C 11 中这样 const std vector
防止网页“过度滚动”

在 Mac 版 Chrome 中人们可以过度滚动页面因为没有更好的词了如下面的屏幕截图所示以查看后面有什么类似于 iPad 或 iPhone 我注意到有些页面已禁用它例如 Gmail 和新选项卡页面如何禁用过度滚动
让java和flash互相对话

我有一个用java编写的应用程序我想为其添加一个flash前端 Flash 前端将与独立 Flash 播放器中的 Java 应用程序在同一台计算机上运行我需要两个部分之间的双向通信并且不知道如何开始解决这个问题我想我可以在两个程序之
如何在 AX 2012 中设置单个维度值？

我的问题是设置从外部源读取的一些尺寸值鉴于 AX 2009 声明 ledgerJournalTrans Dimension ledgerTable Dimension ledgerJournalTrans Dimension 1 abc
如何在 JNI 中访问从 C++ 返回 java.lang.String 的 Java 方法的返回值？

我试图从 C 调用的 Java 方法传回一个字符串我无法找出应该调用哪个 JNI 函数来访问该方法并返回 jstring 值我的代码如下 C part main jclass cls jmethodID mid jstring rv o
用 mutate 替换部分字符串（在管道中）

我想替换字符串的一部分在前两个下划线之间第一组始终为 i 如下面的基本 R 示例所示 library dplyr library stringr d lt tibble txt c i 0000 GES i 0000 OISO i 00
Scrapy - 从表中提取项目

试图了解 Scrapy 但遇到了一些死胡同我在一页上有 2 个表想从每个表中提取数据然后移至下一页表看起来像这样第一个称为 Y1 第二个称为 Y2 并且结构相同 div style margin bottom 0px margin

Scrapy - 从表中提取项目

Scrapy - 从表中提取项目 的相关文章

随机推荐

热门标签

Scrapy - 从表中提取项目的相关文章