Scrapy文件下载如何使用自定义文件名

2024-05-02

For my scrapy http://doc.scrapy.org/index.html我目前正在使用的项目文件管道 https://doc.scrapy.org/en/latest/topics/media-pipeline.html#scrapy.pipelines.files.FilesPipeline。下载的文件以其 URL 的 SHA1 哈希值作为文件名进行存储。

[(True,
  {'checksum': '2b00042f7481c7b056c4b410d28f33cf',
   'path': 'full/0a79c461a4062ac383dc4fade7bc09f1384a3910.jpg',
   'url': 'http://www.example.com/files/product1.pdf'}),
 (False,
  Failure(...))]

如何使用自定义文件名来存储文件？

在上面的例子中，我希望文件名是“产品1_0a79c461a4062ac383dc4fade7bc09f1384a3910.pdf”所以我保持唯一性但使文件名可见。

作为起点，我探索了pipelines.py我的项目没有取得太大成功。

import scrapy
from scrapy.pipelines.images import FilesPipeline
from scrapy.exceptions import DropItem

class MyFilesPipeline(FilesPipeline):

    def file_path(self, request, response=None, info=None):
        return request.meta.get('filename','')

    def get_media_requests(self, item, info):
        file_url = item['file_url']
        meta = {'filename': item['name']}
        yield Request(url=file_url, meta=meta)

将此参数包含在我的settings.py

ITEM_PIPELINES = {
    #'scrapy.pipelines.files.FilesPipeline': 300
    'io_spider.pipelines.MyFilesPipeline': 200
}

A 类似的问题 https://stackoverflow.com/questions/6194041/scrapy-image-download-how-to-use-custom-filename/22263951已被询问，但它确实针对图像而不是文件。

任何帮助将不胜感激。

file_path应该返回您的文件的路径。在你的代码中，file_path回报item['name']这将是你的文件的路径。请注意，默认情况下file_path 计算 SHA1 哈希值 https://github.com/scrapy/scrapy/blob/master/scrapy/pipelines/files.py#L464。所以你的方法应该是这样的：

def file_path(self, request, response=None, info=None):
    original_path = super(MyFilesPipeline, self).file_path(request, response=None, info=None)
    sha1_and_extension = original_path.split('/')[1] # delete 'full/' from the path
    return request.meta.get('filename','') + "_" + sha1_and_extension

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Scrapy文件下载如何使用自定义文件名的相关文章

Flask中使用的路由装饰器是如何工作的

我熟悉 Python 装饰器的基础知识但是我不明白这个用于 Flask 路由的特定装饰器是如何工作的以下是 Flask 网站上的代码片段 from flask import Flask escape request app Flask
Python re无限执行

我正在尝试执行这段代码 import re pattern r w w s re compiled re compile pattern results re compiled search COPRO HORIZON 2000 HOR p
如何使用 Python boto3 获取 redshift 中的列名称

我想使用 python boto3 获取 redshift 中的列名称创建Redshift集群将数据插入其中配置的机密管理器配置 SageMaker 笔记本打开Jupyter Notebook写入以下代码 import boto3
使用 Pytest 的参数化添加测试功能的描述

当其中一个测试失败时可以在测试正在测试的内容的参数化中添加描述快速了解测试失败的原因有时您不知道测试失败的原因您必须查看代码通过每个测试的描述您就可以知道例如 pytest mark parametrize num1 num2
Python MySQL 操作错误：1045，“用户 root@'localhost' 的访问被拒绝

我试图通过以下方式从我的 python 程序访问数据库 db mysql connect host localhost user Max passwd maxkim db TESTDB cursor db cursor 但是我在第一行代码
Jupyter 笔记本中未显示绘图图表

我已经尝试解决这个问题几个小时了我按照上面的步骤操作情节网站 https plot ly python getting started start plotting online并且图表仍然没有显示在笔记本中这是我的情节代码 color
PIL.Image.open和tf.image.decode_jpeg返回值的区别

我使用 PIL Image open 和 tf image decode jpeg 将图像文件解析为数组但发现PIL Image open 中的像素值与tf image decode jpeg不一样为什么会出现这种情况 Thanks 代
时间序列数据预处理 - numpy strides 技巧以节省内存

我正在预处理一个时间序列数据集将其形状从二维数据点特征更改为三维数据点时间窗口特征在这样的视角中时间窗口有时也称为回顾指示作为输入变量来预测下一个时间段的先前时间步长数据点的数量换句话说时间窗口是机器学习算法在对
使用seaborn绘制简单线图

我正在尝试使用seaborn python 绘制ROC曲线对于 matplotlib 我只需使用该函数plot plt plot one minus specificity sensitivity bs where one minus s
将字符串中的随机字符转换为大写

我尝试随机附加文本字符串这样就不只是有像这样的输出 gt gt gt david 我最终会得到类似的东西 gt gt gt DaViD gt gt gt dAviD 我现在的代码是这样的 import random import stri
PyInstaller“ValueError：源代码字符串不能包含空字节”

我得到了一个ValueError source code string cannot contain null bytes执行命令时pyinstaller main py在具有和不具有管理员权限的cmd中 Traceback most re
使用 selenium 和 python 来提取 javascript 生成的 HTML？萤火虫？

这里是Python新手我遇到的是数据收集问题我在这个网站上当我用 Firebug 检查我想要的元素时它显示了包含我需要的信息的源然而常规源代码没有 Firebug 不会给我这个信息这意味着我也无法通过正常的 selenium
如何通过函数注释指示函数需要函数作为参数，或返回函数？

您可以使用函数注释 http www python org dev peps pep 3107 在python 3中指示参数和返回值的类型如下所示 def myfunction name str age int gt str return
仅允许正小数

在我的 Django 模型中我创建了一个如下所示的小数字段 price models DecimalField u Price decimal places 2 max digits 12 显然价格为负或零是没有意义的有没有办法将小数
在 numpy 中连接维度

我有x 1 2 3 4 5 6 7 8 9 10 11 12 shape 2 2 3 I want 1 2 3 4 5 6 7 8 9 10 11 12 shape 2 6 也就是说我想连接中间维度的所有项目在这种特殊情况下我可以得到这
PyQt5：如何使QThread返回数据到主线程

I am a PyQt 5 4 1 1初学者我的Python是3 4 3 这是我尝试遵循的many https mayaposch wordpress com 2011 11 01 how to really truly use qthr
高效创建抗锯齿圆形蒙版

我正在尝试创建抗锯齿加权而不是布尔圆形掩模以制作用于卷积的圆形内核 radius 3 no of pixels to be 1 on either side of the center pixel shall be decimal a
在matlab中，如何读取python pickle文件？

在 python 中我生成了一个 p 数据文件 pickle dump allData open myallData p wb 现在我想在Matlab中读取myallData p 我的Matlab安装在Windows 8下其中没有Pyt
Python 中的 Unix cat 函数 (cat * > merged.txt)？ [复制]

这个问题在这里已经有答案了一旦建立了目录有没有办法在Python中使用Unix中的cat函数或类似的函数我想将 files 1 3 合并到 merged txt 我通常会在 Unix 中找到该目录然后运行 cat gt merged
描述符“join”需要“unicode”对象，但收到“str”

代码改编自here http wiki geany org howtos convert camelcase from foo bar to Foo Bar def lower case underscore to camel case s

随机推荐

带有无序列表的 Flexbox

我正在尝试学习 Flexbox 我真的很喜欢它我正在尝试玩动态宽度当我这样做时div它有效如果我尝试这样做li 它也不起作用我的代码已上线codepen http codepen io jrock2004 pen pjvZJd d
如何展开和折叠列表视图中的项目

我对安卓还很陌生我想实现一个列表视图它包含一些列表项当单击它们时它们应该展开以显示更多信息但我找不到办法做到这一点这是我的activity main xml
jtree 编程式多选

是否能够以编程方式选择 JTree 中的多个树节点我已经设置了多选模式tree getSelectionModel setSelectionMode TreeSelectionModel DISCONTIGUOUS TREE SELECT
Vue.js 严格模式下不允许对一个属性进行多个定义

再会我们正在使用 Vuejs Vuex vue router 构建我们的应用程序https github com vuejs vue hackernews 2 0 https github com vuejs vue hackernews
通过变量引用工作簿和工作表

引用不同工作簿的工作表的正确语法是什么以下代码在最后一行抛出错误谢谢 Instantiate Workbook variables Dim mWB As Workbook master workbook Instantiate Work
我无法从指向派生类的指针和指向基类的指针的指针进行分配？ [复制]

这个问题在这里已经有答案了可能的重复派生到基础之间的转换 https stackoverflow com questions 8026040 conversion between derived to base 在主要使用 Pyth
OpenRasta - Scott Littlewoods 基本身份验证工作示例

我正在测试使用 OpenRasta 作为 ASP NET MVC 的可行替代方案的可行性但是我遇到了有关身份验证的绊脚石让我明确一点开放式摘要身份验证不是一个选项在此刻我读到 Scott Littlewood 为 OpenRas
使用 Hadoop 映射两个数据集

假设我有两个键值数据集数据集A和B 我们称它们为数据集A和B 我想用 B 组的数据更新 A 组中的所有数据其中两者在键上匹配因为我要处理如此大量的数据所以我使用 Hadoop 进行 MapReduce 我担心的是为了在 A 和 B
将数值和分类数据混合到具有密集层的 keras 序列模型中

我在 Pandas 数据框中有一个训练集我将此数据框传递到model fit with df values 以下是有关 df 的一些信息 df values shape 981 5 df values 0 array 163 0 6 83
查询 ssisdb 以查找包的名称

我正在查询 ssis 目录以找出目录中所有包的名称 Folder1项目中只有6个包但查询却给出了9条记录 1 SELECT P NAME FROM SSISDB internal projects PRJ INNER JOIN SSISD
找不到方法的私有访问器

在 Visual Studio 2010 下使用上下文菜单生成新的单元测试时右键单击方法名称 gt 生成单元测试我收到此错误 Private Accessor for methodName is not found Please reb
当请求太大时，Nginx（我认为）会以错误的权限保存文件

所以我对托管和 Linux 等都是完全陌生的所以如果我说错了请原谅我我还在学习我正在使用 Django 创建一个小型个人网站我想把它放到网上看看是否一切正常我从 linode 买了一台便宜的服务器并使用 Digital Oc
Html Agility Pack 无法使用 xpath 找到列表选项

这与我之前的问题 https stackoverflow com questions 6127769 webdriver can find element using xpath html agility pack cannot 但似乎我还
改造 POST java.io.IOException：由 java.io.EOFException 引起的连接上的流意外结束：\n 未找到：

我已经解决了与此相关的所有问题但尚未找到适合我的解决方案我在用着retrofit 2 8 1 and OkHttp 4 5 0 我的服务界面如下所示 public interface MlApiService POST Multipar
在java中读取文本文件[关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案当每行都包含整数字符串和双精度数时如何在 Java 中读取 txt 文件并将每一行放入数组中每行都有不同数量的单词数字 Try
如何隐藏实际的下载文件夹位置

我想隐藏下载文件夹位置以便用户下载文件时看不到该位置我认为这可以使用 htaccess 文件来完成但我该如何做到这一点或者如何使用 PHP 来完成此操作我在 PHP 中是这样做的
全屏 Exoplayer

我尝试用以下内容显示节目视频 mp4 外播放器 in 回收视图 and 浏览器我展示了具有自定义布局的视频控制器到目前为止一切都很好现在尝试像其他视频播放器一样全屏播放视频但在中找不到好方法外播放器 doc 谁能帮我 ExoPla
iphone - UIScrollview - 带有慢速动画的scrollRectToVisible

我正在使用 UIScrollView 并使用scrollRectToVisible animated 这对我来说效果很好但我想慢慢滚动到一个位置以便用户可以注意到效果是否可以我正在尝试以下代码但没有成功 UIView beginA
使用 NSPredicate 进行过滤，用于数组内字典内数组的数组计数

我有如下格式的数组 xyz Array with different values many more keys same as above dictionary many more dictionaries 在这里看我有字典的主数组其
Scrapy文件下载如何使用自定义文件名

For my scrapy http doc scrapy org index html我目前正在使用的项目文件管道 https doc scrapy org en latest topics media pipeline html scr

Scrapy文件下载如何使用自定义文件名

Scrapy文件下载如何使用自定义文件名 的相关文章

随机推荐

热门标签

Scrapy文件下载如何使用自定义文件名的相关文章