Scrapy - 抓取时发现的抓取链接

2024-04-21

我只能假设这是 Scrapy 中最基本的事情之一，但我就是不知道如何去做。基本上，我会抓取一页来获取包含本周更新的网址列表。然后我需要一一进入这些网址并从中获取信息。我目前已经设置了两个刮刀，并且它们可以完美地手动工作。因此，我首先从第一个抓取器中抓取 url，然后将它们硬编码为第二个抓取器上的 start_urls[]。

最好的方法是什么？是否像调用 scraper 文件中的另一个函数一样简单，该函数获取 url 列表并在那里进行抓取？

这是获取 url 列表的抓取工具：

class MySpider(scrapy.Spider):
    name = "myspider"

    start_urls = [ .....
    ]


    def parse(self, response):
        rows = response.css('table.apas_tbl tr').extract()
        urls = []
        for row in rows[1:]:
            soup = BeautifulSoup(row, 'lxml')
            dates = soup.find_all('input')
        urls.append("http://myurl{}.com/{}".format(dates[0]['value'], dates[1]['value']))

这是一个会一一浏览 url 的抓取工具：

class Planning(scrapy.Spider):
    name = "planning"

    start_urls = [
       ...
    ]


    def parse(self, response):
        rows = response.xpath('//div[@id="apas_form"]').extract_first()
        soup = BeautifulSoup(rows, 'lxml')
        pages = soup.find(id='apas_form_text')
        for link in pages.find_all('a'):
            url = 'myurl.com/{}'.format(link['href'])

        resultTable = soup.find("table", { "class" : "apas_tbl" })

然后我将 resultTable 保存到一个文件中。目前，我获取 url 列表的输出并将其复制到另一个抓取工具中。

对于使用 parse 找到的每个链接，您可以请求它并使用其他函数解析内容：

class MySpider(scrapy.Spider):
    name = "myspider"

    start_urls = [ .....
    ]

    def parse(self, response):
        rows = response.css('table.apas_tbl tr').extract()
        urls = []
        for row in rows[1:]:
            soup = BeautifulSoup(row, 'lxml')
            dates = soup.find_all('input')
            url = "http://myurl{}.com/{}".format(dates[0]['value'], dates[1]['value'])
            urls.append(url)
            yield scrapy.Request(url, callback=self.parse_page_contents)

    def parse_page_contents(self, response):
        rows = response.xpath('//div[@id="apas_form"]').extract_first()
        soup = BeautifulSoup(rows, 'lxml')
        pages = soup.find(id='apas_form_text')
        for link in pages.find_all('a'):
            url = 'myurl.com/{}'.format(link['href'])

        resultTable = soup.find("table", { "class" : "apas_tbl" })

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

Scrapy

Scrapy - 抓取时发现的抓取链接的相关文章

如何在Python中选择要写入(.csv)的列

import csv f csv reader open lmt csv r open input file for reading Date Open Hihh mLow Close Volume zip f s plit it into
Python：使用 string.format() 将单词大写

是否可以使用字符串格式将单词大写例如 user did such and such format user foobar 应该返回 Foobar 做了这样那样的事情请注意我很清楚 capitalize 但是这是我正在使用的代码非常
pandas Wide_to_long 后缀参数

我对在 pandas 中使用 Wide to long 时的参数有疑问有一个参数叫suffix我不明白在文档中它说后缀 str 默认 d 捕获所需后缀的正则表达式 d 捕获数字后缀没有数字的后缀可以用否定字符类 D 指定您还可以进
使用应用程序脚本将 MS Word 文件（保存在云端硬盘中）转换为 Google 文档

我被某些事情困住了找不到解决办法有没有办法使用文件 url 或 id 将存储在 Google Drive 中的 MS Word 文件转换为 Google 文档我目前有一个电子表格其中包含文件的网址或者也可以使用 python 脚
Python GTK + webkit - 在 gtk.main() 之后插入 JavaScript

我在终端中尝试了这个一切正常但是如果我在脚本内运行这个我无法在 gtk main 之后插入 JavaScript import gtk import webkit w gtk Window b webkit WebView w add
以矢量化方式在另一个 DataFrame 中查找包含值子集的行

如何匹配此 DataFrame 中的值source car id lat lon 0 100 10 0 15 0 1 100 12 0 10 0 2 100 09 0 08 0 3 110 23 0 12 0 4 110 18 0 32 0
最小二乘法拟合直线 python 代码

我有一个由 X 和 Y 坐标组成的散点图我想使用直线的最小二乘拟合来获得最佳拟合线直线最小二乘拟合是指如果 x 1 y 1 x n y n 是测量数据对则最佳直线是y A Bx 这是我的Python代码 number of poin
正则表达式，选择最接近的匹配

假设以下单词序列 BLA text text text text text text BLA text text text text LOOK text text text BLA text text BLA 我想做的是将 BLA 中的文本
Python 的 mysqldb 晦涩文档

Python 模块 mysqldb 中有许多转义函数我不理解它们的文档而且我努力查找它们也没有发现任何结果 gt gt gt print mysql escape doc escape obj dict escape any speci
如何使用 i18n 切换器将“LANGUAGE_CODE”保存到数据库，以便在 Django 中的不同浏览器中语言不会更改？

有什么办法可以改变它的值LANGUAGE CODE单击按钮发送请求时 settings py 中的变量会动态变化吗我希望用户设置自己的默认语言他们的帐户现在用户可以使用下拉列表选择他们的首选语言并且网站会得到完美的翻译并且
对于相同的查询，MySQL Workbench 比 Python 快得多

MySQL Workbench 中的以下查询需要 0 156 秒才能完成 SELECT date time minute price id FROM minute prices WHERE contract id 673 AND TIMES
张量流和线程

下面是来自 Tensorflow 网站的简单 mnist 教程即单层 softmax 我尝试通过多线程训练步骤对其进行扩展 from tensorflow examples tutorials mnist import input dat
scikit-learn 和tensorflow 有什么区别？可以一起使用它们吗？

对于这个问题我无法得到满意的答案据我了解 TensorFlow是一个数值计算库经常用于深度学习应用而Scikit learn是一个通用机器学习框架但它们之间的确切区别是什么 TensorFlow 的目的和功能是什么我可以一起使用它
如何将类添加到 LinkML 中的 SchemaDefinition？

中的图表https linkml io linkml model docs SchemaDefinition https linkml io linkml model docs SchemaDefinition and https link
如何使用 Celery 多工作人员启用自动缩放？

命令celery worker A proj autoscale 10 1 loglevel info启动具有自动缩放功能的工作人员当创建多个工人时 me mypc projects x celery multi start mywork
为什么 __instancecheck__ 没有被调用？

我有以下 python3 代码 class BaseTypeClass type def new cls name bases namespace kwd result type new cls name bases namespace p
在 matplotlib 中绘制多边形的并集[重复]

这个问题在这里已经有答案了我正在尝试绘制几个多边形的并集matplotlib 具有一定的 alpha 水平我当前的代码在交叉点处颜色较深有没有办法让交叉路口与其他地方的颜色相同 import matplotlib pyplot as
在 scipy 中创建新的发行版

我试图根据我拥有的一些数据创建一个分布然后从该分布中随机抽取这是我所拥有的 from scipy import stats import numpy def getDistribution data kernel stats gauss
如何使用 os.chdir 转到减去最后一步的路径？

例如一个方法传递了一个路径作为参数这个路径可能是 C a b c d 如果我想使用 os chdir 更改为 C a b 怎么办 c 没有最后一个文件夹 os chdir 可以接受命令吗 os chdir 可以采取作为论点是的然
Java/Python 中的快速 IPC/Socket 通信

我的应用程序中需要两个进程 Java 和 Python 进行通信我注意到套接字通信占用了 93 的运行时间为什么通讯这么慢我应该寻找套接字通信的替代方案还是可以使其更快更新我发现了一个简单的修复方法由于某些未知原因缓冲输出流似

随机推荐

访问 ctypes 结构中的 np.array

我有一个带有动态分配数组的 ctypes 结构即 array 1d double npct ndpointer dtype np double ndim 1 flags CONTIGUOUS class Test Structure fi
如何将多维 C 数组传递给函数？ [复制]

这个问题在这里已经有答案了我在大学课堂上学习了 C 语言和指针除了多维数组和指针之间的相似性之外我认为我已经很好地掌握了这个概念我认为由于所有数组甚至是多维都存储在连续的内存中因此您可以安全地将其转换为int 假设给定的数组是
Java、Spark 和 Cassandra java.lang.ClassCastException：com.datastax.driver.core.DefaultResultSetFuture 无法转换为阴影

我在尝试将数据写入 Cassandra 数据库时遇到错误我在这里得到了什么 1 字典 java package com chatSparkConnactionTest import java io Serializable public
Websocket-rails 不适用于 Nginx 和 Unicorn 的生产环境

我有 Rails 3 2 应用程序和 gem websocket rails 0 7 在开发机器上一切正常在生产环境中我使用 Nginx 1 6 作为代理服务器使用 Unicorn 作为 http 服务器 Thin 用于独立模式如
如何在java中使用不同文件中的类？

我是 Java 新手这就是我正在尝试做的事情我在 Windows 计算机上的此文件夹中有两个文件 d programs sims javasim src com jsim Person java Building java 在我的 Bu
如何从 .txt 文件中读取已知数量的未知大小的字符串并将每一行存储在矩阵的一行中（在 C 中）？

标题是不言自明的我几乎可以肯定最终结果不会是一个矩阵因为每行都有不同数量的列所以它更像是可变大小的数组的数组按大小对片段进行排序最大的在前也很有趣这是我到目前为止所尝试过的 int main char str MAXLEN
需要帮助升级我的 Rails 版本

我是 Ruby on Rails 新手我需要将我的rails版本从1 2 3升级到2 3 5 我在windows环境下使用mysql数据库工作您能帮我清楚地说明升级rails版本所涉及的步骤吗谢谢正如您所说您想要升级当前应用程序的
在 JavaCameraView 中设置帧速率

我想使用 JavaCameraView 将帧速率设置为 1 fps 当我打开相机时帧速率约为 20 fps 我的目的是改变这个值单击按钮后 1 fps 有人可以帮助我吗我在互联网上搜索了很多但我找不到任何有趣的东西在文档中也htt
无法在 Android 上使用 XOAUTH 连接到 Gmail IMAP

我正在构建一个使用 Gmail 来备份一些数据的应用程序我使用 XOAUTH 连接到 Gmail 并获取令牌和秘密但我无法连接到 Gmail 的 IMAP 服务我按照以下示例进行操作http code google com p goo
将 HTML 作为 PHP 执行

当我尝试将 PHP 嵌入到 HTML 文件中时它不起作用我编辑了 htaccess 以便将 HTML 文件视为 PHP 但是当我尝试访问 html 文件时我的浏览器会下载它而不是解析和显示它编辑我的 htaccess 内容 Ad
Java 源文件中可以有宏吗

在我的程序中我多次从控制台读取整数每次我都需要输入这一行 new Scanner System in nextInt 我习惯了 C C 我想知道我是否可以定义类似的东西 define READINT Scanner System in
Go 中通过 new(Type) 和 &Type{} 分配内存的区别

考虑以下示例 type House struct func main house1 new House house2 House fmt Printf T T n house1 house2 Output main House main H
超级丑陋的数字

所以问题是编写一个程序来查找第 n 个超级丑数超级丑数是正数其所有素数因子都在给定素数列表中大小为 k 的素数例如 1 2 4 7 8 13 14 16 19 26 28 32 是给定素数的前 12 个超级丑数的序列 2 7 13
使用 v2.0 端点的声明中缺少 UPN

我已经设置了一个类似于 Microsoft 的以下示例的项目其中我有一个本机应用程序请求使用 v2 0 端点访问 Web api https github com azureadquickstarts appmodelv2 nativec
通过SPARQL UPDATE从本体中删除空白节点

我在 SPARQL UPDATE 插入操作的帮助下将一些数据存储在 protege 中制作的本体模型中以下是更新查询 PREFIX test
Direct3D 中的矩阵多阶

关于在 Direct3D 中乘法矩阵以获得结果我收到了两个相互矛盾的答案教程确实规定从左到右相乘这很好但这不是我想象的方式这是一个例子 OpenGL 从上到下阅读 GLRotatef 90 0f GLTranslatef 20 0
将操作添加到自定义 UITableViewCell

我正在构建一个简单的应用程序其中包含填充了自定义视图单元格的表格视图并使用故事板我想在用户每次点击单元格时在单元格上添加一个操作到目前为止我尝试创建一个IBOutle将我的手机连接到我的tableViewController并在代码
.net Ajax calendarExtender 在 IE7 中剪切星期六（在 Firefox 中工作正常）

我在 IE7 中遇到了这个问题日历中似乎缺少星期六它在 Firefox 中显示良好一些人建议这可能是我的其他样式表搞乱了它所以我现在使用自定义日历 CSS 主题但我仍然遇到同样的问题有任何想法吗使用的 ajax 工具包是否存在
GCP 计算实例的公共实例 CNAME

Azure 提供了一种使用以下方式访问 VM 的方法 cloudapp net GCP中有类似的东西吗如果是我在哪里如何查看访问实例的确切 CNAME 我读到它 googleapi com 但无法在 GCP 门户上的任何位置找到它 N
Scrapy - 抓取时发现的抓取链接

我只能假设这是 Scrapy 中最基本的事情之一但我就是不知道如何去做基本上我会抓取一页来获取包含本周更新的网址列表然后我需要一一进入这些网址并从中获取信息我目前已经设置了两个刮刀并且它们可以完美地手动工作因此我首先从第一个

Scrapy - 抓取时发现的抓取链接

Scrapy - 抓取时发现的抓取链接 的相关文章

随机推荐

热门标签

Scrapy - 抓取时发现的抓取链接的相关文章