使用 Python 从网站下载所有 pdf 文件

2024-05-15

我遵循了几个在线指南，试图构建一个可以识别并从网站下载所有 pdf 的脚本，从而避免我手动执行此操作。到目前为止，这是我的代码：

from urllib import request
from bs4 import BeautifulSoup
import re
import os
import urllib

# connect to website and get list of all pdfs
url="http://www.gatsby.ucl.ac.uk/teaching/courses/ml1-2016.html"
response = request.urlopen(url).read()
soup= BeautifulSoup(response, "html.parser")     
links = soup.find_all('a', href=re.compile(r'(.pdf)'))


# clean the pdf link names
url_list = []
for el in links:
    url_list.append(("http://www.gatsby.ucl.ac.uk/teaching/courses/" + el['href']))
#print(url_list)


# download the pdfs to a specified location
for url in url_list:
    print(url)
    fullfilename = os.path.join('E:\webscraping', url.replace("http://www.gatsby.ucl.ac.uk/teaching/courses/ml1-2016/", "").replace(".pdf",""))
    print(fullfilename)
    request.urlretrieve(url, fullfilename)

该代码似乎可以找到所有 pdf（取消注释print(url_list)看到这个）。然而，它在下载阶段失败。特别是我收到此错误，并且我无法理解出了什么问题：

E:\webscraping>python get_pdfs.py
http://www.gatsby.ucl.ac.uk/teaching/courses/http://www.gatsby.ucl.ac.uk/teaching/courses/ml1-2016/cribsheet.pdf
E:\webscraping\http://www.gatsby.ucl.ac.uk/teaching/courses/cribsheet
Traceback (most recent call last):
  File "get_pdfs.py", line 26, in <module>
    request.urlretrieve(url, fullfilename)
  File "C:\Users\User\Anaconda3\envs\snake\lib\urllib\request.py", line 248, in urlretrieve
    with contextlib.closing(urlopen(url, data)) as fp:
  File "C:\Users\User\Anaconda3\envs\snake\lib\urllib\request.py", line 223, in urlopen
    return opener.open(url, data, timeout)
  File "C:\Users\User\Anaconda3\envs\snake\lib\urllib\request.py", line 532, in open
    response = meth(req, response)
  File "C:\Users\User\Anaconda3\envs\snake\lib\urllib\request.py", line 642, in http_response
    'http', request, response, code, msg, hdrs)
  File "C:\Users\User\Anaconda3\envs\snake\lib\urllib\request.py", line 570, in error
    return self._call_chain(*args)
  File "C:\Users\User\Anaconda3\envs\snake\lib\urllib\request.py", line 504, in _call_chain
    result = func(*args)
  File "C:\Users\User\Anaconda3\envs\snake\lib\urllib\request.py", line 650, in http_error_default
    raise HTTPError(req.full_url, code, msg, hdrs, fp)
urllib.error.HTTPError: HTTP Error 404: Not Found

有人可以帮我吗？

查看以下实现。我用过requests模块而不是urllib进行下载。此外，我用过.select()方法而不是.find_all()以避免使用re.

import os
import requests
from urllib.parse import urljoin
from bs4 import BeautifulSoup

url = "http://www.gatsby.ucl.ac.uk/teaching/courses/ml1-2016.html"

#If there is no such folder, the script will create one automatically
folder_location = r'E:\webscraping'
if not os.path.exists(folder_location):os.mkdir(folder_location)

response = requests.get(url)
soup= BeautifulSoup(response.text, "html.parser")     
for link in soup.select("a[href$='.pdf']"):
    #Name the pdf files using the last portion of each link which are unique in this case
    filename = os.path.join(folder_location,link['href'].split('/')[-1])
    with open(filename, 'wb') as f:
        f.write(requests.get(urljoin(url,link['href'])).content)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

regex

URL

webscraping

beautifulsoup

使用 Python 从网站下载所有 pdf 文件的相关文章

PyQt：如何通过匿名代理使用网页

这真让我抓狂我想在 QWebPage 中显示一个 url 但我想通过匿名代理来实现 Code setting up the proxy proxy QNetworkProxy proxy setHostName 189 75 98 199
Kivy - 文本换行工作错误

我正在尝试在 Kivy 1 8 0 应用程序中换行文本当没有太多文字时一切正常但如果文本很长并且窗口不是很大它只是剪切文本这是示例代码 vbox BoxLayout orientation vertical size hint y
希伯来语中的稀疏句子标记化错误

尝试对希伯来语使用稀疏句子标记 import spacy nlp spacy load he doc nlp text sents list doc sents I get Warning no model found for he Onl
如何使用显式引用转储 YAML？

递归引用非常适合ruamel yaml or pyyaml ruamel yaml dump ruamel yaml load A A id001 id001 然而它显然不适用于普通引用 ruamel yaml dump ruamel
TF map_fn 或 while_loop 用于不同形状的张量列表

我想处理不同形状的张量序列列表并输出另一个张量列表考虑每个时间戳上具有不同隐藏状态大小的 RNN 就像是输入 tf ones 1 2 2 tf ones 2 2 3 tf ones 3 2 1 输出 tf zeros 1 2 4 t
正则表达式获取模式的最后一次出现

我有一个字符串我需要选择最后一次出现的模式该字符串是 1302638400000 0 0 1302724800000 0 610 64999999999998 1302811200000 0 2266 6500000000001 130
在 macOS 中通过 Python 访问进程的压缩 RAM（顶部的 CMPRS）的方法？

我试图弄清楚如何从 Python 访问任何给定进程占用的实际 RAM 量我发现 psutil Process PID memory info rss 工作得很好直到操作系统决定开始压缩某些进程的 RAM 然后所有的 memory in
更改 Altair 中的构面标题位置？

如何将方面标题在本例中为年份移动到每个图的上方默认值似乎位于图表的一侧这可以轻易改变吗 import altair as alt from vega datasets import data df data seattle weat
登录网站并使用 python 请求下载文件

我有一个带有 HTML 表单的网站登录后它会将我带到 start php 站点然后将我重定向到overview php 我想从该服务器下载文件当我单击 ZIP 文件的下载链接时链接后面的地址是 getimage php path
python是带有字符串的运算符行为[重复]

这个问题在这里已经有答案了我无法理解以下行为我正在创建 2 个字符串并使用 is 运算符来比较它对于第一种情况它的工作方式有所不同对于第二种情况它按预期工作当我使用逗号或空格时它显示是什么原因False与比较is当没有使用
`list()` 被认为是一个函数吗？

list显然是内置类型 https docs python org 3 library stdtypes html list在Python中我看到底下有一条评论this https stackoverflow com a 53645813
Python多处理错误“ForkAwareLocal”对象没有属性“连接”

下面是我的代码我面临着多处理问题我看到这个问题之前已经被问过我已经尝试过这些解决方案但它似乎不起作用有人可以帮我吗 from multiprocessing import Pool Manager Class X def init
如何使用 paramiko 查看（日志）文件传输进度？

我正在使用 Paramiko 的 SFTPClient 在主机之间传输文件我希望我的脚本打印文件传输进度类似于使用 scp 看到的输出 scp my file user host user host password my file 1
Pandas style.bar 颜色基于条件？

如何渲染其中一列的 Pandas dfstyle bar color属性是根据某些条件计算的 Example df style bar subset before after color ff781c vmin 0 0 vmax 1 0 而
在 Sphinx 中，有没有办法在声明参数的同时记录参数？

我更喜欢在声明参数的同一行记录每个参数根据需要以便应用D R Y http en wikipedia org wiki Don t repeat yourself 如果我有这样的代码 def foo flab nickers a ser
Python 声音（“铃声”）

我想让一个 python 程序在完成任务时通过发出嘟嘟声来提醒我目前我使用import os然后使用命令行语音程序说进程完成我更愿意它是一个简单的铃我知道有一个函数可以用于Cocoa apps NSBeep 但我认为这与此没有太
是否可以将 pd.Series 分配给无序 pd.DataFrame 中的列而不映射到索引（即不重新排序值）？

在 Pandas 中创建或分配新列时我发现了一些意外的行为当我对 pd DataFrame 进行过滤或排序从而混合索引然后从 pd Series 创建新列时 Pandas 会重新排序该系列以映射到 DataFrame 索引例如 d
在 virtualenvwrapper 中激活环境

我安装了virtualenv and virtualenvwrapper用这个命令我创建了一个环境 mkvirtualenv cv 它有效创建后我就处于新环境中现在我重新启动了我的电脑我想activate又是那个环境但是怎么样我使
更改 Python Cmd 模块处理自动完成的方式

我有一个 Cmd 控制台设置为自动完成 Magic the Gathering 收藏管理系统的卡牌名称它使用文本参数在数据库中查询卡片并使用结果自动完成建议卡片然而这些卡片名称有多个单词 Cmd 会从last到行尾的空间例如
Django 模型：如何使用 mixin 类来覆盖 django 模型以实现 save 等功能

我想在每次保存模型之前验证值所以我必须重写保存函数代码几乎是一样的我想把它写在 mixin 类中但失败了我不知道如何写 super func 我英语不好抱歉 class SyncableMixin object def sav

随机推荐

如何编写 Perl 脚本来使用 curl 处理 URL？

我有一个非常简单的任务我有一个 crontab 每小时运行一个脚本该脚本旨在简单地处理 URL 这就是我所拥有的这不起作用我收到语法错误 usr bin perl curl http domain com page html 我已经
ASP.net C#.如何解析博客中的原子提要

饲料位于 http latestpackagingnews blogspot com feeds posts default http latestpackagingnews blogspot com feeds posts default
您可以用 Google 的 Protocol Buffer 格式表示 CSV 数据吗？

我最近发现了协议缓冲区想知道它们是否可以应用于我的特定问题基本上我有一些 CSV 数据需要将其转换为更紧凑的格式以进行存储因为其中一些文件有几GB CSV中的每个字段都有一个标题并且只有两种类型字符串和小数因为有时有很多有效
通过嵌套数组对象属性将数组映射到字符串数组

拥有包含嵌套数组的对象数组 let arr name aaa inputs inputName input 1 groups groupName group a name bbb inputs inputName input 2 group
将值设置为 aria-controls 输入

我想设置一个输入咏叹调控制值但我无法使用传统的 jQuery 方式来做到这一点我的代码是这样的 function showMessage var message jQuery textToDisplay val example text
在 pandas 条形图中设置 xticks

我在下面的第三个示例图中遇到了这种不同的行为为什么我能够正确编辑 x 轴的刻度pandas line and area 情节但不与bar 修复一般第三个示例的最佳方法是什么 import numpy as np import pan
VIM 始终使用选项卡式页面

我想要一个可以放入 vimrc 文件中的命令该命令将使 vim 始终以选项卡式页面模式打开而无需传递 p在命令行上有这样的命令吗如果没有是否有更好的方法来做到这一点目前我正在使用 alias vi vim p 在我的 bash
ReactJS 水平对齐material-ui 元素

我试图在文本输入旁边有一个单选按钮这样用户基本上可以输入问题的答案并标记一个首选答案然而 Material UI 将每个都放在自己的行上这就是我目前所拥有的 div div
如何在 R 中为回归量创建“宏”？

对于长且重复的模型我想创建一个宏在 Stata 中称为宏并通过以下命令完成 global var1 var2 其中包含回归量的模型公式例如来自 library car lm income education prestige d
正则表达式从字符串中提取 IP 和端口

我正在使用 Perl 尝试从字符串中提取 IP 地址和端口我尝试使用的正则表达式是 s sip 字符串是 sip 255 255 255 255 8080 transport TCP sip 255 255 255 255 8080 显然
Imgur API 版本 3 JavaScript 上传示例

我在网上找到的所有示例都是早期版本的 Imgur API 或非 JS 代码所有这些都使用新 API 中不存在的 API 密钥相反你会得到一个client id and secret 任何人都有示例代码展示如何使用其 API 版本 3
预期的 ProductField，出现数组问题

我有一个 Rails 4 应用程序它有一个如下所示的 params 块 def store params params require store permit name description user id products attr
在私有控制器方法中返回redirect_to

前言我正在使用设备进行身份验证我试图阻止未经授权的用户查看编辑或更新其他用户的信息我最关心的是用户将 DOM 中的表单修改为另一个用户的 ID 填写表单然后单击更新我已经专门阅读过像下面这样的东西应该有效但事实并非如此 SO
Android Studio Beta 频道、Android Studio Canary 频道、Android Studio Dev 频道有什么区别？ [关闭]

Closed 这个问题需要细节或清晰度 help closed questions 目前不接受答案我是 android 新手想知道要安装哪个 studio Android Studio Beta 频道 Android Studio Ca
TreeMap 删除所有大于某个键的键

在项目中我需要删除键值大于某个键的所有对象键类型为Date 如果重要的话据我所知TreeMapJava中实现的是红黑树它是一种二叉搜索树所以我应该得到O n 删除子树时但除了制作尾部视图并一一删除之外我找不到任何方法可以做到这
Delphi 流畅的界面

使用上有什么优点和缺点流畅的界面 http en wikipedia org wiki Fluent interface在德尔福流畅的界面应该会增加可读性但我对此有点怀疑one包含很多链式方法的长 LOC 是否存在编译器问题是否存在任
Python-删除字符然后加入字符串

我正在编写一个程序将标准 SVG 路径转换为 Raphael js 友好格式路径数据的格式为 d M 62 678745 259 31235 L 63 560745 258 43135 L 64 220745 257 99135 L 6
如何在 M1 Mac 上运行的模拟器上运行旧版 Android 版本（例如 API 级别 21）？

虽然现在有一个适用于 M1 mac 的 Android Studio 和支持arm架构的Android模拟器镜像 https stackoverflow com questions 64907154 android studio emula
如何在指令模板中使用动态 ng-show 值？

我正在学习 Angular 并且尝试通过使用 Angular 指令来减少执行一些常见操作例如显示错误消息所需的代码我想创建的一个指令是这样的
使用 Python 从网站下载所有 pdf 文件

我遵循了几个在线指南试图构建一个可以识别并从网站下载所有 pdf 的脚本从而避免我手动执行此操作到目前为止这是我的代码 from urllib import request from bs4 import BeautifulSoup

使用 Python 从网站下载所有 pdf 文件

使用 Python 从网站下载所有 pdf 文件 的相关文章

随机推荐

热门标签

使用 Python 从网站下载所有 pdf 文件的相关文章