重命名使用 Python Requests 下载的文件

2024-05-14

我怎样才能替换名字pdf使用 Python Requests 下载的文件？

我想将其另存为Manual_name1.pdf not as Elkinson%20Jeffrey.pdf

CSV 文件如下所示：

Manual_name1 https://www.adndrc.org/diymodule/doc_panellist/Elkinson%20Jeffrey.pdf
Manual_name2 http://www.parliament.bm/uploadedFiles/Content/House_Business/Presentation_of_Papers_and_of_Reports/PCA%20Report%209262014.pdf
manual_name3 http://www.ohchr.org/Documents/HRBodies/OPCAT/elections2016/HaimoudRamdan.pdf

我当前的代码：

import os
import csv
import requests

write_path = 'C:\\Users\\hgdht\\Desktop\\Downloader_Automation'  # ASSUMING THAT FOLDER EXISTS!

with open('Links.csv', 'r') as csvfile:
    spamreader = csv.reader(csvfile)
    for link in spamreader:
        if not link:
            continue
        print('-'*72)
        pdf_file = link[0].split('/')[-1]
        with open(os.path.join(write_path, pdf_file), 'wb') as pdf:
            try:
                # Try to request PDF from URL
                print('TRYING {}...'.format(link[0]))
                a = requests.get(link[0], stream=True)
                for block in a.iter_content(512):
                    if not block:
                        break

                    pdf.write(block)
                print('OK.')
            except requests.exceptions.RequestException as e:  # This 
will catch ONLY Requests exceptions
                print('REQUESTS ERROR:')
                print(e)  # This should tell you more details about the error

代替

pdf_file = link[0].split('/')[-1]

使用 csv 文件中的特定列：

pdf_file = link[1]  # (assuming the file name is in the second column)

如果文件名位于第一列，则应该使用

pdf_file = link[0]  # (assuming the file name is in the first column)
# OR
import time  # put this in the beginning of your script
pdf_file = '{}-{}.pdf'.format(link[0], int(time.time()))
# file name will look like: "name-1495460691.pdf"

但是当使用请求调用链接时，您将必须更改对链接本身的引用：

a = requests.get(link[1], stream=True)  # (assuming the link is in the second column)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

python3x

webscraping

pythonrequests

重命名使用 Python Requests 下载的文件的相关文章

nginx/uwsgi 服务器的持久内存中 Python 对象

我怀疑这是否可能但这是问题和提出的解决方案提出的解决方案的可行性是这个问题的对象我有一些需要可用于所有请求的全局数据我将这些数据保存到 Riak 并使用 Redis 作为缓存层以提高访问速度目前数据被分为约 30 个逻辑块每
自动从 iTunes Connect 下载销售报告

我有一个漂亮而 hacky 的 Perl 脚本来自动从 iTunes Connect 抓取和下载销售报告文件截至今天苹果对销售报告网站进行了全面改革它看起来好多了但它使用了大量 JavaScript 简单的抓取不再有效那么有人知
Heroku 上的 Django 应用程序在一段时间后删除对象

我编写了一个简单的 Django 问答论坛应用程序并将其部署在 Heroku 上该网站的本地版本运行良好但是生产版本不会将问题答案等存储超过几个小时我决定坚持使用 Django 附带的 sqlite3 我预计该网站不会有太多流量
numpy：与索引数组有效求和

假设我有 2 个矩阵 M 和 N 都有 gt 1 列我还有一个索引矩阵 I 有 2 列 1 列代表 M 一列代表 N N 的索引是唯一的但 M 的索引可能出现多次我想要执行的操作是 for i j in w M i N j 除了 fo
来自 Pandas DataFrame 的用户定义的 Json 格式

我有一个 pandas dataFrame 打印 pandas DataFrame 后结果如下所示 country branch no of employee total salary count DOB count email x a
拥有 n （2048 位数字），如何找到满足 n = p*q 的两个数字 p 和 q，其中 p = r||s （r 和 s 连接）和 q = s||r？

我正在使用 RSA 加密解密系统并且我有模数 n 这是一个 2048 位数字我需要找到 p 和 q 它们满足 n p q 并且都是素数给我的线索是 p 等于 q 但其位颠倒了正如我在本文标题中所说的那样具体来说 r 和 s 具有
Python int和float在64位系统中的内存消耗

我正在 Python 3 4 的 64 位系统中尝试以下代码以了解不同原始数据类型的内存消耗 import sys print sys getsizeof 45 prints 28 print sys getsizeof 45 2 pri
如何使用 matplotlib 面向对象的 API 设置轴刻度和刻度标签

我需要一些在 Python2 7 下的 Matplotlib pyplot 中绘图的帮助我想生成一个具有以下 x 轴的图 x 轴应该是这样 https i stack imgur com zcosX jpg 我到目前为止通过使用myaxi
argparse - 禁用相同参数的出现

我正在尝试使用 argparse 禁用一个命令行中出现相同的参数 python3 argument1 something argument2 argument1 something else 这意味着这应该会引发错误因为 argument
导入错误：没有名为“tensorrt”的模块

我使用 Debian 安装在我的虚拟机上安装了 TensorRT 如果我运行 dpkg l grep TensorRT 我会得到预期的结果 ii graphsurgeon tf 5 0 2 1 cuda10 0 amd64 GraphSur
argparse add_argument 别名

有没有办法使用 argparse 创建别名例如我想做这样的事情 parser add argument foo parser add argument alias bar foo 也就是说使用 bar应该相当于使用 foo 您可以简单
iter(fp.readline, '') 中的行而不是 fp 中的行：

我读了内置函数iter的例子在内置函数 Python 3 7 0 文档 https docs python org 3 library functions html iter with open mydata txt as fp for l
如何在 django 中发出 post 请求后获取表单的名称？
从 Java 调用 Python 代码时出现问题（不使用 jython）

我发现这是从 java 运行使用 exec 方法 python 脚本的方法之一我在 python 文件中有一个简单的打印语句但是我的程序在运行时什么也没做它既不打印Python文件中编写的语句也不抛出异常程序什么都不做就终止了
函数调用中的星号[重复]

这个问题在这里已经有答案了我正在使用 itertools chain 以这种方式展平列表列表 uniqueCrossTabs list itertools chain uniqueCrossTabs 这与说有什么不同 uniqueCr
无法从 celery 信号连接到 celery 任务？

我正在尝试连接task2 from task success signal from celery signals import task success from celery import Celery app Celery app t
在IPython笔记本中自动播放声音

我经常在 IPython 笔记本中运行长时间运行的单元我希望笔记本在单元完成执行时自动发出蜂鸣声或播放声音有没有办法在 iPython 笔记本中执行此操作或者我可以在单元格末尾放置一些命令来自动播放声音我正在使用 Chrome 如果
无法使用 Python 3 编写的 gzip.open() 将压缩文件上传到云存储

当我尝试在 Cloud Shell 实例上使用 python 脚本将压缩的 gzip 文件上传到云存储时它总是上传一个空文件这是重现错误的代码 import gzip from google cloud import storage s
WTforms 表单未提交但不输出验证错误

我正在尝试使用以下方式上传文件flask uploads工作和遇到一些障碍我会告诉你我的flask查看函数 html 希望有人能指出我缺少的内容基本上发生的情况是我提交了表格但失败了if request method POST and
Selenium WebDriver 在按钮单击事件上无法正常工作。这里有什么问题呢？

I am using following code to scrape data from a website I have following interface 这是 HTML div class es content div

随机推荐

iPhone SDK：将 UIActivityIndicatorView 添加到 UITableViewCell

为什么单元格在这段代码中没有显示任何内容 UIActivityIndicatorView spinner UIActivityIndicatorView alloc initWithActivityIndicatorStyle UIActi
使用DBFlow，如何加密已经存在的数据库？

我正在使用 DBFlow 来处理项目中的数据库并且我想对现有数据库进行加密我知道我可能必须删除现有的未加密数据库并创建另一个加密数据库我也知道我可以将 SQLCipher 与 DBFlow 一起使用如上所述文档 https gith
获取列名称以及 JSON 响应

我有三个实体类我编写了包含两个表的联接的查询表费用类别 Entity Table name ExpensesCategories public class ExpensesCategories Id GeneratedValue st
Dart2js 数字类型：确定值是 int 还是 double

我正在尝试确定是否dynamic函数的参数实际上是一个int or a double我发现了令人惊讶的行为至少对我来说谁能解释一下这个输出在 dartpad 上生成 foo value print value is int value
如何更改 twitter-bootstrap 中文本区域的列数？

如果我更改 rows 的值它就会起作用但无论我用 cols gt 设置什么值它都会保持默认的 cols 列宽不会改变我查看了 html 源代码它反映了更改我想知道 bootstrap 的 CSS 可能是嫌疑人 HTML 最终的
如何在 Java 中获得列表的反向列表视图？

我想在列表上有一个反向列表视图与List sublist提供列表上的子列表视图是否有一些函数可以提供此功能我不想复制该列表也不想修改该列表在这种情况下如果我能在列表上至少获得一个反向迭代器就足够了另外我知道如何自己实现这一点
将 TFVC 代码从一个集合移动到另一个集合（包括历史记录）

我需要将一些代码从一个项目集合中的 TFVC 移动到另一个集合中的项目我还需要保留签入历史记录我不担心更改集 ID 但确实希望保留历史记录中的评论人物和时间以及所做的更改被移动到的项目将是空的这将在本地使用 TFS2017 Upd
pandas 使用日期时间对象重新索引 DataFrame

是否可以重新索引 pandasDataFrame使用由日期时间对象组成的列我有一个数据框df包含以下列 Int64Index 19610 entries 0 to 19609 Data columns cntr 19610 non nul
使用 Javascript 解析文本

我正在尝试使用 Javascript 来解析在文本框中输入的文本这将结合各种用户生成的变量来创建随机活动看看这个例子可能更有意义一些示例输入可能是 Activity Home Out Home Read book for time C
模拟器中 Google Wear 上的语音识别器没有语音输入

我试图使用 Google Wear 网站上的自由形式语音输入在 hello world 示例中我刚刚添加了对 textView 的单击它确实从语音意图中调出立即发言活动但模拟器无法检测到我的麦克风发出的任何声音我使用的是 Ma
在python中断言两个变量几乎相等

这里有两个变量 earnings forecast actual earning 数值变量我想断言这两个变量是否相等并且相对于 2 的差异是可以接受的actual earning多变的认为 earnings forecast 6 ac
Openresty 中的并发模型是什么？

我很难理解 openresty 或 nginx 的并发模型我读了Lua变量作用域 http wiki nginx org HttpLuaModule Lua Variable Scope 它解释了变量的生命周期但它没有说明对它们的并发访
Yii中的组件、扩展和模块有什么区别

我是 Yii 框架的新手刚刚遇到module 扩大成分在受保护的文件夹内任何人都可以从理论上和实践上区分所有这些成分是可以帮助您根据模型编写业务逻辑的类假设所有模型文件都使用相同的逻辑这样逻辑就可以编写在组件内部而不是为每个控
iCalendar 邀请未在电子邮件客户端中显示 RSVP 按钮

我正在使用 PHPMailer 发送电子邮件我的ICS内容是 BEGIN VCALENDAR METHOD REQUEST VERSION 2 0 PRODID FooBar FooBar Calendar EN BEGIN VEVENT
使用 SceneKit 实现 ARKit 广告牌效果

我希望添加与此应用程序类似的广告牌效果 https twitter com marpi status 897130955105644544 https twitter com marpi status 897130955105644544
java regex 屏蔽列表中的所有元素，最后 4 个字符可见

我有一个字母数字字符串列表如下所示 nG5wnyPVNxS6PbbDNNbRsK5zanG94Et6Q4y74 GgQoDWqP7KtxXeePyyebu5EnNp8XxPC1odeNv GgQoDWqP7KtxXeePyyebu5EnN
Play框架：单属性案例类的JSON读取

我正在尝试为包含单个属性的案例类创建隐式 JSON Reads 但收到错误 Reads Nothing 不符合预期类型这是代码 import play api libs functional syntax import play api
接手一个项目 - 我应该问以前的程序员什么？ [关闭]

Closed 这个问题是基于意见的 help closed questions 目前不接受答案我正在接管一个商业网站的开发该网站是由另一位程序员花费两年多的时间开发的这主要是一项单人工作维护和扩展网站我将有 2 3 天的过渡期届
如何从 NodeJs 调用 python 脚本

我需要在 NodeJs 中调用这个 python 脚本 Read py usr bin env python coding utf8 import RPi GPIO as GPIO import MFRC522 import signal
重命名使用 Python Requests 下载的文件

我怎样才能替换名字pdf使用 Python Requests 下载的文件我想将其另存为Manual name1 pdf not as Elkinson 20Jeffrey pdf CSV 文件如下所示 Manual name1 https

重命名使用 Python Requests 下载的文件

重命名使用 Python Requests 下载的文件 的相关文章

随机推荐

热门标签

重命名使用 Python Requests 下载的文件的相关文章