Scrapy:抓取链接列表

2023-12-04

这个问题有点后续this我之前问过的问题。

我正在尝试抓取一个首页上包含一些链接的网站。类似的东西this.

现在,由于我想抓取页面上存在的项目的详细信息,因此我提取了它们各自的 URL。

我已将这些 URL 保存在列表中。

如何启动蜘蛛来单独抓取页面?

为了更好地理解:

[urlA, urlB, urlC, urlD...]

这是我抓取的 URL 列表。现在我想启动一个蜘蛛来单独抓取链接。

我该怎么办?


我假设您想要跟踪的网址会指向具有相同或相似结构的页面。如果是这种情况,你应该这样做:

from scrapy.contrib.spiders import CrawlSpider
from scrapy.selector import Selector
from scrapy.http import Request

class YourCrawler(CrawlSpider):

   name = 'yourCrawler'
   allowed_domains = 'domain.com'
   start_urls = ["htttp://www.domain.com/example/url"]


   def parse(self, response):
      #parse any elements you need from the start_urls and, optionally, store them as Items.
      # See http://doc.scrapy.org/en/latest/topics/items.html

      s = Selector(response)
      urls = s.xpath('//div[@id="example"]//a/@href').extract()
      for url in urls:
         yield Request(url, callback=self.parse_following_urls, dont_filter=True)


   def parse_following_urls(self, response):
       #Parsing rules go here

否则,如果您想要跟踪的网址导致具有不同结构的页面,那么您可以为它们定义特定的方法(例如 parse1、parse2、parse3...)。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

Scrapy:抓取链接列表 的相关文章

  • del 在 Python 中什么时候有用?

    我实在想不出为什么 Python 需要del关键字 大多数语言似乎没有类似的关键字 例如 我们可以分配一个变量 而不是删除一个变量None到它 当从字典中删除时 del可以添加方法 有理由保留吗del在Python中 还是Python前垃圾
  • 设置面积图 openpyxl 的透明度(alpha)

    我想使用 openpyxl 设置面积图背景的透明度 我的图表代码是 from openpyxl drawing fill import PatternFillProperties ColorChoice c2 AreaChart c2 gr
  • Python XLWT调整列宽

    XLWT 的易用性给我留下了深刻的印象 但有一件事我还没有弄清楚该怎么做 我正在尝试将某些行调整为显示所有字符所需的最小宽度 换句话说 如果双击单元格之间的分隔线 excel 会做什么 我知道如何将列宽调整为预定量 但我不确定如何确定显示所
  • 将鼠标悬停在 Folium 的弹出窗口中

    用这样一个简单的例子 import folium map 1 folium Map location 45 372 121 6972 zoom start 12 tiles Stamen Terrain folium Marker 45 3
  • 为什么这个“[::-1]”在Python中返回一个反向列表? [复制]

    这个问题在这里已经有答案了 可能的重复 Python 切片表示法的良好入门指南 https stackoverflow com questions 509211 good primer for python slice notation P
  • url 查询中的字符 %7D 意味着什么?

    如果我使用 url 访问我的 web 应用程序 vi 5907399890173952 html 然后它就可以工作了 但是当我查看日志文件时 googlebot 会尝试访问一个类似的网址 该网址会生成异常 vi 59073998901739
  • 来自 yahoo 的 python lxml etree 小程序信息

    雅虎财经更新了他们的网站 我有一个 lxml etree 脚本 用于提取分析师建议 然而现在 分析师的建议已经存在 但只是以图表的形式出现 你可以看到一个例子这一页 https finance yahoo com quote CSX ana
  • 如何针对 Heroku 路由器的代理/缓冲情况优化 uWSGI?

    我在 Heroku 的生产中使用 uWSGI 已有一年多了 它似乎比 Gunicorn 处理所有事情都要好得多 随着我们的流量扩大 我试图更好地理解heroku的路由器和uWSGI之间的接口 以优化和防止问题 但它对我来说仍然相当不透明 我
  • 如何在Tensorflow中读取json文件?

    我正在尝试编写一个函数 用于读取张量流中的 json 文件 json 文件具有以下结构 bounding box y 98 5 x 94 0 height 197 width 188 rotation yaw 27 970195770263
  • 对训练和测试数据帧使用相同的标签编码器

    我有 2 个不同的 csv 其中包含训练数据和测试数据 我从这些 train features df 和 test features df 创建了两个不同的数据帧 请注意 测试和训练数据有多个分类列 因此我需要对它们应用 labelEnco
  • 视频的 EXIF 之类的东西

    有没有从视频文件中获取信息的标准方法 对于图像 我们有 EXIF 数据 可用于获取有关图像文件的日期 时间 大小等信息 我想知道视频是否也有这样的东西 用例是 我有很多用数码相机拍摄的视频 我想将它们重命名为更有意义的名称 例如 YYYY
  • python 使用曲面图和第四个变量的滑块可视化 4d 数据

    如何使用前 3 个变量和第四个变量的 3 维曲面图作为滑块来可视化 4 维数据 从 csv 文件加载 集 我写了一个非常小的示例 重点介绍了实现此目标的方法 import numpy as np import matplotlib pypl
  • 如何设置 pandas DataFrame _repr_html_ 方法的默认样式?

    我有一个 pandas DataFrame 其中有一列是 url 并且我编写了以下格式化程序以将其作为链接呈现在我的笔记本中 def make clickable val target blank to open new window re
  • 如何在Python中按天对时间序列数据求和? resample.sum() 没有效果

    我是Python新手 如何根据日期求和数据并绘制结果 我有一个 Series 对象 其数据如下 2017 11 03 07 30 00 NaN 2017 11 03 09 18 00 NaN 2017 11 03 10 00 00 NaN
  • 如何在Python中生成0-1矩阵的所有可能组合?

    如何生成大小为 K N 的 0 1 矩阵的所有可能组合 例如 如果我取 K 2 和 N 2 我会得到以下组合 combination 1 0 0 0 0 combination 2 1 0 0 0 combination 3 0 1 0 0
  • 由 asyncio.new_event_loop 创建的事件循环挂起

    以下代码只是挂起而不打印任何内容 import asyncio async def foo loop print foo loop stop loop asyncio new event loop asyncio ensure future
  • 相比之下,超出了最大递归深度

    我写了这段代码来计算组合的数量 def fact n return 1 if n 1 else n fact n 1 def combinations n k return fact n fact n k fact k while True
  • 如何在(最好是纯)Python 中解码 QR 码图像?

    TL DR 我需要一种使用 最好是纯 Python 从图像文件中解码 QR 码的方法 我有一个带有 QR 码的 jpg 文件 我想使用 Python 对其进行解码 我发现有几个库声称可以做到这一点 PyQRCode 网站在这里 http p
  • python chaco轴标签时间格式

    在 Enthought 的 Chaco 中 TimeFormatter类用于格式化刻度的时间字符串 标签 有没有办法指定时间格式 类似于time strftime 源代码现在将显示月份和日期时的格式硬编码为美国风格 MMDD 我想添加一些灵
  • Doctest 返回失败,但“预期”和“得到”完美匹配

    我正在尝试做列表部分的第二个练习 http www openbookproject net thinkcs python english2e ch09 html exercises 如何像计算机科学家一样思考 一书的内容 我基本上必须将给定

随机推荐

  • 如何获取 WFFM 字段的值作为标签并将其输出到 Sitecore DMS 报告中?

    如果我创建一个启用了分析的 Web Forms For Marketers 表单 我可以选择将每个字段作为标签添加到访客 我看不到如何配置应将它们添加到哪个标签 甚至看不到默认情况下该标签的名称 我假设创建了带有字段名称的标签 我还想知道如
  • OmniAuth 无效响应错误

    我将 OmniAuth 与 Devise 结合使用 允许用户使用 Facebook 登录或使用用户名和密码创建普通帐户 当我最初设置这一切时 我使用了来自铁路广播 两个多月以来 一切都运行良好 但就在前几天 Facebook 登录停止工作
  • 如何在同一主机上运行 Angular 2 客户端应用程序和 Node 服务器应用程序

    我在 Angular 2 中构建了一个应用程序来从数据库获取数据 并使用 node express 从服务器获取数据并将其提供给 Angular 客户端 目前它们都运行在不同的本地主机上 如何将它们组合成一个项目并在同一主机上运行 假设您的
  • Android 管理 API:企业/策略列表?

    这让我抓狂 我已成功遵循Android 管理 API 快速入门创建项目 企业 策略并将其安装在设备上 我愚蠢地没有写下企业或策略 ID 我尝试创建一个新集 但非企业电子邮件现在给出错误 表明它已经是另一个 EMM 的一部分 控制台中是否有一
  • Heroku SSL 错误:密钥与 PEM 证书不匹配

    我正在尝试使用 Heroku 建议的说明生成自签名证书 http www akadia com services ssh test certificate html 这将创建 sever key 和 server crt 然后我尝试使用以下
  • 隐藏 UITableViewCell

    有没有办法隐藏 UITableView 单元格 我正在寻找一些可以在同步 cellForRowAtIndexPath 返回的 UITableViewCell 上调用的属性或方法 以隐藏它并使其无法被用户选择 对我来说 使用映射并不是一个简单
  • 如何获取并解析附加到 url 中的查询字符串? PHP

    我正在尝试开发一个 PHP 类 它使我能够将查询字符串附加到 url 中 并根据传递的变量对其进行处理 如何才能做到这一点 Eg www example com var1 a var2 b var3 c 现在我想要得到 var1 a var
  • 在 Lyx 中使用 Knitr 时出现 R 函数错误

    使用summary 函数时出现错误 Lyx 中的针织者 它前面的函数可以工作 lt lt gt gt library faraway head teengamb mdl lt lm gamble sex status data teenga
  • 如何在 Jenkins 托管的网格上使用 Chromedriver 设置 Selenium

    我刚刚迈出了使用 Selenium 的第一步 我成功设置了一个测试 Firefox 驱动程序 在我的 Jenkins 上的 Selenium 网格上运行 使用 Jenkins Selenium Grid 插件 我还在运行 Jenkins 的
  • JavaScript sweetAlert 弹出窗口在一秒钟后自行关闭

    我有一个 SweetAlert 弹出窗口 但它会自动关闭 通常它应该保留到用户单击 确定 为止 我已经包含并测试了所有 SweetAlert 文件
  • 通过 RStudio 加载 com.databricks.spark.csv

    我已经安装了Spark 1 4 0 我还安装了它的 R 包 SparkR 并且可以通过 Spark shell 和 RStudio 使用它 但是 有一个我无法解决的差异 启动 SparkR shell 时 bin sparkR master
  • for 循环中的 MATLAB 和元胞数组处理

    我是 MATLAB 新手 想从数据库中获取的元胞数组中提取数据 sensors 1 23 1 0 0 1000 1x29 char 2 23 1 120 0 1000 1x43 char 3 23 1 120 0 1000 1x42 cha
  • FaceBook 应用程序:检索我的应用程序用户的 ID 列表

    我可以使用 fql 或 graph api 检索它吗 每次用户访问您的应用程序时 都可以像这样检索他的 facebook id facebook new Facebook api key secret facebook gt require
  • 关闭时为详细信息标签设置动画

    我正在为我的历史项目开发一个网站 但遇到了一个问题 我尝试为详细信息标签设置动画 但似乎没有任何效果 这是我用于打开动画的代码 keyframes open 0 opacity 0 transform translateY 1vw 100
  • 如何在 Visual Studio 2010 中打开 IntelliSense?

    我正在尝试为 aspx 文件类型启用智能感知 我在文本编辑器选项中检查了自动列表成员 勾选隐藏高级会员与否没有什么区别吗 如何在 vs net 2010 中启用智能感知 应立即为 ASP NET 启用 IntelliSense 包括 asp
  • Python 将图像转换为使用更少的颜色

    我想拍摄一张图像并 以某种方式 将其读取为像素数组 这意味着 2d 数组的每个元素都是表示该像素颜色的十六进制代码或 RGB 三元组 我研究过图像处理 发现了 Pillow 或 SciPy 之类的东西 但我只发现了过于简单的东西 例如添加过
  • Python 正则表达式匹配无法匹配孟加拉语句子中的特定单词

    这里有奇怪的小问题 我有孟加拉语 随机 句子 我尝试在其上运行正则表达式 使用Pythonre库 像这样 令牌 4 re search r b b
  • Square 有沙盒测试帐户吗?

    我正在尝试为 Square Connect API 开发一个包装器 我正在寻找沙盒帐户或将测试数据导入新帐户的方法 以便我可以快速开始开发方面 谢谢你 为了供从 Google 登陆这里的人们将来参考 Square 现在提供此功能 每个帐户都
  • 读取原子修改的值是否需要内存屏障?

    鉴于以下情况 class Foo public void Increment InterlockedIncrement m value OSIncrementAtomic long GetValue return m value priva
  • Scrapy:抓取链接列表

    这个问题有点后续this我之前问过的问题 我正在尝试抓取一个首页上包含一些链接的网站 类似的东西this 现在 由于我想抓取页面上存在的项目的详细信息 因此我提取了它们各自的 URL 我已将这些 URL 保存在列表中 如何启动蜘蛛来单独抓取