Scrapy：抓取链接列表

2023-12-04

这个问题有点后续this我之前问过的问题。

我正在尝试抓取一个首页上包含一些链接的网站。类似的东西this.

现在，由于我想抓取页面上存在的项目的详细信息，因此我提取了它们各自的 URL。

我已将这些 URL 保存在列表中。

如何启动蜘蛛来单独抓取页面？

为了更好地理解：

[urlA, urlB, urlC, urlD...]

这是我抓取的 URL 列表。现在我想启动一个蜘蛛来单独抓取链接。

我该怎么办？

我假设您想要跟踪的网址会指向具有相同或相似结构的页面。如果是这种情况，你应该这样做：

from scrapy.contrib.spiders import CrawlSpider
from scrapy.selector import Selector
from scrapy.http import Request

class YourCrawler(CrawlSpider):

   name = 'yourCrawler'
   allowed_domains = 'domain.com'
   start_urls = ["htttp://www.domain.com/example/url"]


   def parse(self, response):
      #parse any elements you need from the start_urls and, optionally, store them as Items.
      # See http://doc.scrapy.org/en/latest/topics/items.html

      s = Selector(response)
      urls = s.xpath('//div[@id="example"]//a/@href').extract()
      for url in urls:
         yield Request(url, callback=self.parse_following_urls, dont_filter=True)


   def parse_following_urls(self, response):
       #Parsing rules go here

否则，如果您想要跟踪的网址导致具有不同结构的页面，那么您可以为它们定义特定的方法（例如 parse1、parse2、parse3...）。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

webscraping

Scrapy

Scrapy：抓取链接列表的相关文章

del 在 Python 中什么时候有用？

我实在想不出为什么 Python 需要del关键字大多数语言似乎没有类似的关键字例如我们可以分配一个变量而不是删除一个变量None到它当从字典中删除时 del可以添加方法有理由保留吗del在Python中还是Python前垃圾
设置面积图 openpyxl 的透明度（alpha）

我想使用 openpyxl 设置面积图背景的透明度我的图表代码是 from openpyxl drawing fill import PatternFillProperties ColorChoice c2 AreaChart c2 gr
Python XLWT调整列宽

XLWT 的易用性给我留下了深刻的印象但有一件事我还没有弄清楚该怎么做我正在尝试将某些行调整为显示所有字符所需的最小宽度换句话说如果双击单元格之间的分隔线 excel 会做什么我知道如何将列宽调整为预定量但我不确定如何确定显示所
将鼠标悬停在 Folium 的弹出窗口中

用这样一个简单的例子 import folium map 1 folium Map location 45 372 121 6972 zoom start 12 tiles Stamen Terrain folium Marker 45 3
为什么这个“[::-1]”在Python中返回一个反向列表？ [复制]

这个问题在这里已经有答案了可能的重复 Python 切片表示法的良好入门指南 https stackoverflow com questions 509211 good primer for python slice notation P
url 查询中的字符 %7D 意味着什么？

如果我使用 url 访问我的 web 应用程序 vi 5907399890173952 html 然后它就可以工作了但是当我查看日志文件时 googlebot 会尝试访问一个类似的网址该网址会生成异常 vi 59073998901739
来自 yahoo 的 python lxml etree 小程序信息

雅虎财经更新了他们的网站我有一个 lxml etree 脚本用于提取分析师建议然而现在分析师的建议已经存在但只是以图表的形式出现你可以看到一个例子这一页 https finance yahoo com quote CSX ana
如何针对 Heroku 路由器的代理/缓冲情况优化 uWSGI？

我在 Heroku 的生产中使用 uWSGI 已有一年多了它似乎比 Gunicorn 处理所有事情都要好得多随着我们的流量扩大我试图更好地理解heroku的路由器和uWSGI之间的接口以优化和防止问题但它对我来说仍然相当不透明我
如何在Tensorflow中读取json文件？

我正在尝试编写一个函数用于读取张量流中的 json 文件 json 文件具有以下结构 bounding box y 98 5 x 94 0 height 197 width 188 rotation yaw 27 970195770263
对训练和测试数据帧使用相同的标签编码器

我有 2 个不同的 csv 其中包含训练数据和测试数据我从这些 train features df 和 test features df 创建了两个不同的数据帧请注意测试和训练数据有多个分类列因此我需要对它们应用 labelEnco
视频的 EXIF 之类的东西

有没有从视频文件中获取信息的标准方法对于图像我们有 EXIF 数据可用于获取有关图像文件的日期时间大小等信息我想知道视频是否也有这样的东西用例是我有很多用数码相机拍摄的视频我想将它们重命名为更有意义的名称例如 YYYY
python 使用曲面图和第四个变量的滑块可视化 4d 数据

如何使用前 3 个变量和第四个变量的 3 维曲面图作为滑块来可视化 4 维数据从 csv 文件加载集我写了一个非常小的示例重点介绍了实现此目标的方法 import numpy as np import matplotlib pypl
如何设置 pandas DataFrame _repr_html_ 方法的默认样式？

我有一个 pandas DataFrame 其中有一列是 url 并且我编写了以下格式化程序以将其作为链接呈现在我的笔记本中 def make clickable val target blank to open new window re
如何在Python中按天对时间序列数据求和？ resample.sum() 没有效果

我是Python新手如何根据日期求和数据并绘制结果我有一个 Series 对象其数据如下 2017 11 03 07 30 00 NaN 2017 11 03 09 18 00 NaN 2017 11 03 10 00 00 NaN
如何在Python中生成0-1矩阵的所有可能组合？

如何生成大小为 K N 的 0 1 矩阵的所有可能组合例如如果我取 K 2 和 N 2 我会得到以下组合 combination 1 0 0 0 0 combination 2 1 0 0 0 combination 3 0 1 0 0
由 asyncio.new_event_loop 创建的事件循环挂起

以下代码只是挂起而不打印任何内容 import asyncio async def foo loop print foo loop stop loop asyncio new event loop asyncio ensure future
相比之下，超出了最大递归深度

我写了这段代码来计算组合的数量 def fact n return 1 if n 1 else n fact n 1 def combinations n k return fact n fact n k fact k while True
如何在（最好是纯）Python 中解码 QR 码图像？

TL DR 我需要一种使用最好是纯 Python 从图像文件中解码 QR 码的方法我有一个带有 QR 码的 jpg 文件我想使用 Python 对其进行解码我发现有几个库声称可以做到这一点 PyQRCode 网站在这里 http p
python chaco轴标签时间格式

在 Enthought 的 Chaco 中 TimeFormatter类用于格式化刻度的时间字符串标签有没有办法指定时间格式类似于time strftime 源代码现在将显示月份和日期时的格式硬编码为美国风格 MMDD 我想添加一些灵
Doctest 返回失败，但“预期”和“得到”完美匹配

我正在尝试做列表部分的第二个练习 http www openbookproject net thinkcs python english2e ch09 html exercises 如何像计算机科学家一样思考一书的内容我基本上必须将给定

随机推荐

如何获取 WFFM 字段的值作为标签并将其输出到 Sitecore DMS 报告中？

如果我创建一个启用了分析的 Web Forms For Marketers 表单我可以选择将每个字段作为标签添加到访客我看不到如何配置应将它们添加到哪个标签甚至看不到默认情况下该标签的名称我假设创建了带有字段名称的标签我还想知道如
OmniAuth 无效响应错误

我将 OmniAuth 与 Devise 结合使用允许用户使用 Facebook 登录或使用用户名和密码创建普通帐户当我最初设置这一切时我使用了来自铁路广播两个多月以来一切都运行良好但就在前几天 Facebook 登录停止工作
如何在同一主机上运行 Angular 2 客户端应用程序和 Node 服务器应用程序

我在 Angular 2 中构建了一个应用程序来从数据库获取数据并使用 node express 从服务器获取数据并将其提供给 Angular 客户端目前它们都运行在不同的本地主机上如何将它们组合成一个项目并在同一主机上运行假设您的
Android 管理 API：企业/策略列表？

这让我抓狂我已成功遵循Android 管理 API 快速入门创建项目企业策略并将其安装在设备上我愚蠢地没有写下企业或策略 ID 我尝试创建一个新集但非企业电子邮件现在给出错误表明它已经是另一个 EMM 的一部分控制台中是否有一
Heroku SSL 错误：密钥与 PEM 证书不匹配

我正在尝试使用 Heroku 建议的说明生成自签名证书 http www akadia com services ssh test certificate html 这将创建 sever key 和 server crt 然后我尝试使用以下
隐藏 UITableViewCell

有没有办法隐藏 UITableView 单元格我正在寻找一些可以在同步 cellForRowAtIndexPath 返回的 UITableViewCell 上调用的属性或方法以隐藏它并使其无法被用户选择对我来说使用映射并不是一个简单
如何获取并解析附加到 url 中的查询字符串？ PHP

我正在尝试开发一个 PHP 类它使我能够将查询字符串附加到 url 中并根据传递的变量对其进行处理如何才能做到这一点 Eg www example com var1 a var2 b var3 c 现在我想要得到 var1 a var
在 Lyx 中使用 Knitr 时出现 R 函数错误

使用summary 函数时出现错误 Lyx 中的针织者它前面的函数可以工作 lt lt gt gt library faraway head teengamb mdl lt lm gamble sex status data teenga
如何在 Jenkins 托管的网格上使用 Chromedriver 设置 Selenium

我刚刚迈出了使用 Selenium 的第一步我成功设置了一个测试 Firefox 驱动程序在我的 Jenkins 上的 Selenium 网格上运行使用 Jenkins Selenium Grid 插件我还在运行 Jenkins 的
JavaScript sweetAlert 弹出窗口在一秒钟后自行关闭

我有一个 SweetAlert 弹出窗口但它会自动关闭通常它应该保留到用户单击确定为止我已经包含并测试了所有 SweetAlert 文件
通过 RStudio 加载 com.databricks.spark.csv

我已经安装了Spark 1 4 0 我还安装了它的 R 包 SparkR 并且可以通过 Spark shell 和 RStudio 使用它但是有一个我无法解决的差异启动 SparkR shell 时 bin sparkR master
for 循环中的 MATLAB 和元胞数组处理

我是 MATLAB 新手想从数据库中获取的元胞数组中提取数据 sensors 1 23 1 0 0 1000 1x29 char 2 23 1 120 0 1000 1x43 char 3 23 1 120 0 1000 1x42 cha
FaceBook 应用程序：检索我的应用程序用户的 ID 列表

我可以使用 fql 或 graph api 检索它吗每次用户访问您的应用程序时都可以像这样检索他的 facebook id facebook new Facebook api key secret facebook gt require
关闭时为详细信息标签设置动画

我正在为我的历史项目开发一个网站但遇到了一个问题我尝试为详细信息标签设置动画但似乎没有任何效果这是我用于打开动画的代码 keyframes open 0 opacity 0 transform translateY 1vw 100
如何在 Visual Studio 2010 中打开 IntelliSense？

我正在尝试为 aspx 文件类型启用智能感知我在文本编辑器选项中检查了自动列表成员勾选隐藏高级会员与否没有什么区别吗如何在 vs net 2010 中启用智能感知应立即为 ASP NET 启用 IntelliSense 包括 asp
Python 将图像转换为使用更少的颜色

我想拍摄一张图像并以某种方式将其读取为像素数组这意味着 2d 数组的每个元素都是表示该像素颜色的十六进制代码或 RGB 三元组我研究过图像处理发现了 Pillow 或 SciPy 之类的东西但我只发现了过于简单的东西例如添加过
Python 正则表达式匹配无法匹配孟加拉语句子中的特定单词

这里有奇怪的小问题我有孟加拉语随机句子我尝试在其上运行正则表达式使用Pythonre库像这样令牌 4 re search r b b
Square 有沙盒测试帐户吗？

我正在尝试为 Square Connect API 开发一个包装器我正在寻找沙盒帐户或将测试数据导入新帐户的方法以便我可以快速开始开发方面谢谢你为了供从 Google 登陆这里的人们将来参考 Square 现在提供此功能每个帐户都
读取原子修改的值是否需要内存屏障？

鉴于以下情况 class Foo public void Increment InterlockedIncrement m value OSIncrementAtomic long GetValue return m value priva
Scrapy：抓取链接列表

这个问题有点后续this我之前问过的问题我正在尝试抓取一个首页上包含一些链接的网站类似的东西this 现在由于我想抓取页面上存在的项目的详细信息因此我提取了它们各自的 URL 我已将这些 URL 保存在列表中如何启动蜘蛛来单独抓取

Scrapy：抓取链接列表

Scrapy：抓取链接列表 的相关文章

随机推荐

热门标签

Scrapy：抓取链接列表的相关文章