使用Scrapy从网站查找并下载pdf文件

2023-12-31

我的任务是使用 Scrapy 从网站上提取 pdf 文件。我对 Python 并不陌生，但 Scrapy 对我来说却很陌生。我一直在尝试控制台和一些基本的蜘蛛。我找到并修改了这段代码：

import urlparse
import scrapy

from scrapy.http import Request

class pwc_tax(scrapy.Spider):
    name = "pwc_tax"

    allowed_domains = ["www.pwc.com"]
    start_urls = ["http://www.pwc.com/us/en/tax-services/publications/research-and-insights.html"]

    def parse(self, response):
        base_url = "http://www.pwc.com/us/en/tax-services/publications/research-and-insights.html"
        for a in response.xpath('//a[@href]/@href'):
            link = a.extract()
            if link.endswith('.pdf'):
                link = urlparse.urljoin(base_url, link)
                yield Request(link, callback=self.save_pdf)

    def save_pdf(self, response):
        path = response.url.split('/')[-1]
        with open(path, 'wb') as f:
            f.write(response.body)

我在命令行中运行此代码

scrapy crawl mySpider

我什么也没得到。我没有创建 scrapy 项目，因为我想抓取并下载文件，没有元数据。我将不胜感激任何帮助。

蜘蛛的逻辑似乎不正确。

我快速浏览了您的网站，似乎有几种类型的页面：

http://www.pwc.com/us/en/tax-services/publications/research-and-insights.html http://www.pwc.com/us/en/tax-services/publications/research-and-insights.html初始页面
特定文章的网页，例如http://www.pwc.com/us/en/tax-services/publications/insights/australia-introduces-new-foreign-resident-cgt-withholding-regime.html http://www.pwc.com/us/en/tax-services/publications/insights/australia-introduces-new-foreign-resident-cgt-withholding-regime.html可以从第 1 页导航
实际的 PDF 位置，例如http://www.pwc.com/us/en/state-local-tax/newsletters/salt-insights/assets/pwc-wotc-precertification-period-extended-to-june-29.pdf http://www.pwc.com/us/en/state-local-tax/newsletters/salt-insights/assets/pwc-wotc-precertification-period-extended-to-june-29.pdf可以从第 2 页进行导航

因此，正确的逻辑如下：首先获取#1 页面，然后获取#2 页面，然后我们可以下载#3 页面。
然而，您的蜘蛛会尝试直接从#1 页面提取指向#3 页面的链接。

EDITED:

我已经更新了您的代码，这是实际有效的代码：

import urlparse
import scrapy

from scrapy.http import Request

class pwc_tax(scrapy.Spider):
    name = "pwc_tax"

    allowed_domains = ["www.pwc.com"]
    start_urls = ["http://www.pwc.com/us/en/tax-services/publications/research-and-insights.html"]

    def parse(self, response):
        for href in response.css('div#all_results h3 a::attr(href)').extract():
            yield Request(
                url=response.urljoin(href),
                callback=self.parse_article
            )

    def parse_article(self, response):
        for href in response.css('div.download_wrapper a[href$=".pdf"]::attr(href)').extract():
            yield Request(
                url=response.urljoin(href),
                callback=self.save_pdf
            )

    def save_pdf(self, response):
        path = response.url.split('/')[-1]
        self.logger.info('Saving PDF %s', path)
        with open(path, 'wb') as f:
            f.write(response.body)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

Scrapy

使用Scrapy从网站查找并下载pdf文件的相关文章

将tensorflow 2.0 BatchDataset转换为numpy数组

我有这个代码 train images test images tf keras datasets mnist load data train dataset tf data Dataset from tensor slices train
如何确定非阻塞套接字是否真正连接？

这个问题不仅限于Python 这是一个一般的套接字问题我有一个非阻塞套接字想要连接到一台可访问的机器在另一端该端口不存在为什么 select 仍然成功我预计会超时 sock send 因管道损坏而失败 select 之后如何确定
在python中将文本文件解析为列表

我对 Python 完全陌生我正在尝试读取包含单词和数字组合的 txt 文件我可以很好地读取 txt 文件但我正在努力将字符串转换为我可以使用的格式 import matplotlib pyplot as plt import num
如何从 PyCharm 项目中获取我的“exe”[重复]

这个问题在这里已经有答案了通过 PyCharm 在 Python 上编写一些项目我想从中获取一个exe文件我尝试过另存为 gt XXX exe 但是当我尝试执行它时出现错误此类操作系统不支持该文件附注我有win7 x64 它
错误：permission_manager_qt.cpp(82) 不支持的权限类型：13

我正在开发具有内置浏览器功能的 python 代码 PyQt 5 13 import sys from PyQt5 QtCore import from PyQt5 QtGui import from PyQt5 QtWidgets imp
在径向（树）网络x图中查找末端节点（叶节点）

给定下图是否有一种方便的方法来仅获取末端节点我所说的端节点是指那些具有一个连接边的到节点我认为这些有时被称为叶节点 G nx DiGraph fromnodes 0 1 1 1 1 1 2 3 4 5 5 5 7 8 9 10 ton
获取列表中倒数第二个元素[重复]

这个问题在这里已经有答案了我可以通过以下方式获取列表的倒数第二个元素 gt gt gt lst a b c d e f gt gt gt print lst len lst 2 e 有没有比使用更好的方法print lst len lst
Python：计算数据帧列中所有行中特定字符的实例数

我有一个包含列 toaddress ccaddress body 的数据框 df 我想迭代数据帧的索引以获取 toaddress 和 ccaddress 字段中电子邮件地址的最小最大和平均数量这是通过计算这两列中每个字段中的和的实
将 Pandas 列中的列表拆分为单独的列

这是我在 pandas 数据框中的特征列 Feature Cricket 82379 Kabaddi 255 Reality 4751 Cricket 15640 Wildlife 730 LiveTV 13 Football 4129
如何列出 python PDB 中的当前行？

在 perl 调试器中如果重复列出离开当前行的代码段可以通过输入命令返回到当前行点我无法使用 python PDB 模块找到任何类似的东西如果我list如果我自己离开当前行并想再次查看它似乎我必须记住当前正在执行的行号对我来说
conda-env list / conda info --envs 如何查找环境？

我一直在尝试 anaconda miniconda 因为我的用户使用随 miniconda 安装的结构生物学程序并且作者都没有 A 考虑到可能存在其他 miniconda 应用程序 B 他们的程序将在多用户环境中使用因此使用 Arch
Matplotlib Scatter - ValueError：RGBA 序列的长度应为 3 或 4

我正在尝试为我的功能绘制图表但不断收到此错误 ValueError RGBA sequence should have length 3 or 4 每当我只有 6 种形状时代码就可以完美运行但现在我将其增加到 10 种它就不起作用了
Pandas Dataframe：将包含列表的行扩展到多行，并为所有列提供所需的索引

我在 pandas 数据框中有时间序列数据索引为测量开始时的时间列中包含以固定采样率记录的值列表连续索引列表中元素数量的差异这是它的样子 Time A B Z 0 1 2 3 4 1 2 3 4 2 5 6 7 8 5 6 7 8
Airflow Python 单元测试？

我想为我们的 DAG 添加一些单元测试但找不到任何单元测试有 DAG 单元测试框架吗有一个端到端的测试框架存在但我猜它已经死了 https issues apache org jira browse AIRFLOW 79 https
查找给定节点的最高权重边

我在 NetworkX 中有一个有向图边缘的权重从 0 到 1 表示它们发生的概率网络连通性非常高所以我想修剪每个节点的边缘只保留最高概率的节点我不确定如何迭代每个节点并仅保留最高权重in edges在图中有没有一个networ
Flask WTForms 使用变量自动填充 StringField

我有一个表格我想用上一页收到的信息自动填充一些字段但如果他们想调整它它需要是可更改的我正在为我的 SelectField 使用动态创建的列表但添加 StringField 并不成功请参阅下面的我的代码 forms py clas
为什么实现 __iter__ 的对象不被识别为可迭代的？

假设您使用包装对象 class IterOrNotIter def init self self f open tmp toto txt def getattr self item try return self getattribute
Python组合目录中的所有csv文件并按日期时间排序

我有 2 年的每日数据分成每月文件我想将所有这些数据合并到一个按日期和时间排序的文件中我正在使用的代码组合了所有文件但不按顺序我正在使用的代码 import pandas as pd import glob os import cs
如何将列表字典写入字符串而不是 CSV 文件？

This 堆栈溢出问题 https stackoverflow com questions 37997085 how to write a dictionary of lists to a csv file将列表字典写入 CSV 文件的答案
使用 Python 生成类似于 Messenger 或 kik 代码的圆形二维码

我可以使用 Python 生成圆形 QR 码就像 Facebook Messenger 或 kik 使用的那样吗我访问了很多网站但找不到这种类型的二维码默认情况下 Python 生成方形 QR 码但在我的项目中我想要圆形 QR 码

随机推荐

如何在android studio中打开android文档和代码示例

我已经在 SDK 管理器帮助下下载了所有文档但是下载后如何在Android Studio中打开这个文档和代码示例呢根据Android Studio 提示和技巧 https developer android com sdk instal
第一次期望失败后停止茉莉花测试

我熟悉 python 单元测试测试如果断言失败该测试将被标记为失败并继续进行其他测试另一方面即使其中一个失败茉莉花也会继续完成所有期望如何让 Jasmine 在第一个期望失败后停止处理测试 it shouldn t need
读取短信，生成点击，然后以编程方式删除

使用广播接收器可以完美执行在清单文件中添加权限例如
可以在 iOS 和 Android 上跨平台使用静态 .a-library 吗？（.so 和 .dylib 怎么样？）

我已经使用 Xcode 创建了一个适用于 iOS 的静态库扩展名为 a 这些是我的构建设置架构 armv6 armv7 基础 SDK iOS 4 3 仅构建活动架构否支持的平台 iphoneos iphonesimulator 有效
SwiftUI 依赖注入

我有一个 SwiftUI 应用程序它是一个基于选项卡的应用程序 struct Tab View View var body some View TabView Main1 View tabItem Text Blah 1 Image Ta
如何在useEffect中向useRef添加事件监听器

我正在构建一个自定义挂钩我想在其中添加事件侦听器到引用但我不确定如何正确清理因为listRef and listRef current可以为空 export const myHook MyHook gt const listRef u
Poetry 未使用正确版本的 Python

我最近安装了 Pyenv 和 Poetry 并想创建一个新的 Python 3 8 项目我已经设置了global and localpython 的版本为3 8 1使用适当的 Pyenv 命令 pyenv global 3 8 1例如当
如何从 Azure Active Directory 获取邮递员中的用户角色声明？

我在我的 Azure AD 帐户中添加了一些用户我想通过以声明的形式从 Postman 调用 Azure API 来获取这些用户的角色和用户信息我尝试使用以下参数调用以下 URL https login microsoftonline
从列表中删除对象 - 包含字符串 - 比较列表

我的问题是如何通过将对象与第二个列表进行比较来从列表中删除对象 List1 第一个列表包含电子邮件地址 List2 第二个列表包含仅域格式为 domain com etc 我想从第一个列表中删除包含第二个列表中的域的对象电子邮件例如
在 R 中播种用户提供的随机数生成器

我在 R 中播种用户定义的 RNG 时遇到了一些麻烦看起来 set seed 123 kind user normal kind user 实际上并没有通过123到用户定义的 RNG 初始化我回到了可用的文档 Random user并尝
可以使用单个命令在 Eclipse 中重命名多个 Java 包吗？

我在 Eclipse 中的 Java 项目结构如下所示 myproject src main java com mypackage mysubpackage1 com mypackage mysubpackage2 com mypackag
意外发生致命信号 16 (SIGSTKFLT)

今天我遇到了一个奇怪的问题我在三台设备上安装了我的应用程序华硕 Transformer Pad Infinity TF700T 三星 I9082 Galaxy Grand Duo LG Optimus L7 II 双 p715 首先我
64 位应用程序与 32 位进程通信

我有使用 32 位第三方库的 32 位应用程序现在我必须将我的应用程序设为 64 位以便它可以利用 64 位地址空间大内存由于我无法将 32 位库加载到 64 位应用程序进程中因此我正在考虑在第三方库上创建 32 位可执行包装器
忽略 python 文件的其余部分

我的 python 脚本通常在文件的第一部分包含可执行代码函数类等在末尾包含测试代码交互式实验 I want python py compile pylint c 完全忽略最后的实验内容我正在寻找类似的东西 if 0 for
如何混合两个ARGB像素？

如何混合两个 ARGB 像素 Example 这里 A 是带有 Alpha 的红色 B 是带有 Alpha 的蓝色取自您获得图像的同一篇维基百科文章转换为 0 到 255 范围内的值 rOut rA aA 255 rB aB 255
git svn windows linux 空格问题

我在 Linux 上使用 git 带有 git svn 而一位同事在 Windows 上使用 svn 很多次 git 都会报告空格问题事实上由于这些问题它无法提交线性历史记录并产生合并冲突在 Windows 和 Linux 上配置
如何将参数传递给用 ActionScript 编写的自定义组件

我有一个用 ActionScript 编写的自定义组件它有一个需要一些参数的构造函数我想像这样在 mxml 中包含该自定义组件主 mxml
最佳 Ansi Escape 开头

哪个 Ansi 转义序列是最便携和或最好的为什么 1 u001B 32 1mThis is bright green u001B 0m 2 x1B 33 1mThis is bright yellow x1B 0m 3 e 35 4 1
变量的类型（列表）无效

我正在尝试在 R 中运行方差分析模型我有一个包含 3 行和 12 列的数据文件每行都是解释变量特定水平的数据单元格 i j 是级别 i 的第 j 个响应该文件的扩展名为 dat 我正在运行以下 R 代码来尝试获取 36 x 2 数据
使用Scrapy从网站查找并下载pdf文件

我的任务是使用 Scrapy 从网站上提取 pdf 文件我对 Python 并不陌生但 Scrapy 对我来说却很陌生我一直在尝试控制台和一些基本的蜘蛛我找到并修改了这段代码 import urlparse import scrap

使用Scrapy从网站查找并下载pdf文件

使用Scrapy从网站查找并下载pdf文件 的相关文章

随机推荐

热门标签

使用Scrapy从网站查找并下载pdf文件的相关文章