Scrapy：根据下载图像的网址，从下载的图像中创建文件夹结构

2024-03-20

我有一系列定义网站结构的链接。从这些链接下载图像时，我想同时将下载的图像放置在类似于网站结构的文件夹结构中，而不仅仅是重命名它（如中所回答）Scrapy图片下载如何使用自定义文件名 https://stackoverflow.com/questions/6194041/scrapy-image-download-how-to-use-custom-filename)

我的代码是这样的：

class MyImagesPipeline(ImagesPipeline):
    """Custom image pipeline to rename images as they are being downloaded"""
    page_url=None
    def image_key(self, url):
        page_url=self.page_url
        image_guid = url.split('/')[-1]
        return '%s/%s/%s' % (page_url,image_guid.split('_')[0],image_guid)

    def get_media_requests(self, item, info):
        #http://store.abc.com/b/n/s/m
        os.system('mkdir '+item['sku'][0].encode('ascii','ignore'))
        self.page_url = urlparse(item['start_url']).path #I store the parent page's url in start_url Field
        for image_url in item['image_urls']:
            yield Request(image_url)

它创建了所需的文件夹结构，但是当我深入了解文件夹时，我发现文件已在文件夹中移位。

我怀疑这种情况正在发生，因为“get_media_requests”和“image_key”函数可能会异步执行，因此“page_url”的值在“image_key”函数使用之前会发生变化。

您是绝对正确的，异步项目处理可以防止通过使用类变量self管道内。您必须在每个请求中存储您的路径并覆盖更多方法（未经测试）：

def image_key(self, url, page_url):
    image_guid = url.split('/')[-1]
    return '%s/%s/%s' % (page_url, image_guid.split('_')[0], image_guid)

def get_media_requests(self, item, info):
    for image_url in item['image_urls']:
        yield Request(image_url, meta=dict(page_url=urlparse(item['start_url']).path))

def get_images(self, response, request, info):
    key = self.image_key(request.url, request.meta.get('page_url'))
    ...

def media_to_download(self, request, info):
    ...
    key = self.image_key(request.url, request.meta.get('page_url'))
    ...

def media_downloaded(self, response, request, info):
    ...
    try:
        key = self.image_key(request.url, request.meta.get('page_url'))
    ...

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

Scrapy

Scrapy：根据下载图像的网址，从下载的图像中创建文件夹结构的相关文章

如何读取通过追加行不断更新的文件？

在我的终端中我正在运行 curl user dhelm 12345 https stream twitter com 1 1 statuses sample json gt raw data txt curl 的输出是实时流式 Twitte
如何让Python的socket服务器永远运行

我有这段代码创建了一个简单的Python套接字服务器但是每次客户端断开连接时它都会关闭如何让它永远运行 import socket HOST PORT 8000 s socket socket socket AF INET socket
向 polls urls.py 添加额外的过滤器会导致测试失败

按照 djangoproject 的教程我尝试让 urls py 过滤掉没有选择下面 urlpattern 的民意调查 urlpatterns patterns url r ListView as view queryset Poll o
sphinx 中的分组方法文档字符串

是否可以使用 sphinx 的 autodoc 功能将多个方法文档字符串分组以便将它们列在一起 class Test object def a self A method of group foo def b self A method
如何在 kubernetes 上使多个 pod 相互通信

我是 Kubernetes 新手我正在尝试通过 microk8s 将应用程序部署到 Kubernetes 该应用程序包含Python Flask后端 Angular前端 Redis和MySQL数据库我将映像部署在多个 Pod 中状态显
是否可以在 Sphinx 中隐藏 Python 函数参数？

假设我有以下函数该函数记录在Numpydoc 风格 https github com numpy numpy blob master doc HOWTO DOCUMENT rst txt 并且文档是自动生成的Sphinx http sph
Python pandas：删除字符串中分隔符之后的所有内容

我有数据框其中包含例如 vendor a ProductA vendor b ProductA vendor a Productb 我需要删除所有内容包括两个以便我最终得到 vendor a vendor b vendor a 我尝
修复类以在 Flask 会话中启用对象存储[重复]

这个问题在这里已经有答案了我有一个自定义类 Passport 其中包含活动用户身份和权限我曾经将它存储在会话中如下所示 p Passport p do something fancy session passport p 它就奏效了
[python]没有属性“TessBaseAPI”

当我编译代码时出现错误 import tessercat api tesseract TessBaseAPI 错误是 AttributeError 模块对象没有属性 TessBaseAPI 我已经安装了tesseract via pip
使用Python进行图像识别[关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我有一个想法就是我想识别图像中的字母可能是 bmp或 jpg 例如这是一个包含字母 S 的 bmp 图像我想做的是使用Pyth
覆盖现有的 django-admin 命令

除了编写自定义 django admin 命令之外这是有详细记录的 https docs djangoproject com en 1 9 howto custom management commands 我希望能够覆盖现有命令例如ma
为什么我在将数据上传到数据库时不断看到“正在重置断开的连接”？

我正在通过 REST API 将数亿个项目从 Heroku 上的云服务器上传到 AWS EC2 中的数据库我正在使用 Python 并且经常在日志中看到以下 INFO 日志消息 requests packages urllib3 conn
什么时候用==，什么时候用is？

奇怪的是 gt gt gt a 123 gt gt gt b 123 gt gt gt a is b True gt gt gt a 123 gt gt gt b 123 gt gt gt a is b False Seems a is b
在Python中确定句子中2个单词之间的邻近度

我需要确定 Python 句子中两个单词之间的接近度例如在下面的句子中 the foo and the bar is foo bar 我想确定单词之间的距离foo and bar 确定之间出现的单词数foo and bar 请注意该词
如何将列表中的每个项目转换为字符串，以便连接它们？ [复制]

这个问题在这里已经有答案了我需要加入一个项目列表列表中的许多项目都是从函数返回的整数值 IE myList append munfunc 我应该如何将返回的结果转换为字符串以便将其加入列表我是否需要对每个整数值执行以下操作 myLis
与 GNU Make 等 Python 相关的并行任务并发

我正在寻找一种方法或者可能是一种哲学方法来如何在 python 中执行类似 GNU Make 的操作目前我们使用 makefile 来执行处理因为 makefile 非常擅长通过更改单个选项 j x 进行并行运行此外 gnu mak
在Python中将罗马数字转换为整数

根据 user2486 所说这是我当前的代码 def romanMap map M 1000 CM 900 D 500 CD 400 C 100 XC 90 L 50 XL 40 X 10 IX 9 V 5 V 4 I 1 return
用户的完整 UNIX 用户名

想知道您是否知道是否有一种巧妙的方法可以从 shell 获取完整的用户名示例如果我的 UNIX 用户名是 froyo 那么我想获取我的全名在本例中如系统中注册的那样 froyo Abhishek Pratap Finger 命令可以
在Python中打开网站框架或图像

所以我对 python 相当熟练并且经常使用 urllib2 和 Cookies 来实现网站自动化我刚刚偶然发现了 webbrowser 模块它可以在默认浏览器中打开一个网址我想知道是否可以从该 url 中仅选择一个对象并打开它具
需要一个从 yaml 文件中提取内容并输出为 csv 文件的脚本

我对 python 很陌生但我很感激您帮助指导我创建一个简单的脚本该脚本读取一堆 yaml 文件同一目录中的大约 300 个文件并从 yaml 文件并将其转换为 csv yaml 文件中内容的示例 code 9313 degrees

随机推荐

快速可靠地查明源代码文件是否实现接口的方法

给定一个java源代码文件有什么快速可靠的方法来查明它是否实现了给定的接口一种可靠的方法是将文件解析为语法树使用例如 Eclipse 的 ASTNode 类并查找正确的节点一种快速的方法是查找带有 implements 的行剔除
如何在不使用 go-flutter 的情况下在 flutter 桌面中使用 image_picker 插件

我正在尝试在我的 flutter 桌面项目中使用 image picker 插件但我认为这个插件没有与 Windows 桌面应用程序一起使用的实现有人有解决办法吗 Ps 我想使用 go flutter 和悬停有两种选择实施适用于 W
复制 Magento 站点

复制 Magento 网站有多容易有多难我的公司使用 Magento 为客户开发了一个英国网站事实证明这很受欢迎因此客户现在要求制作该网站的美国版本据我所知该网站将 99 相同只是指向不同的数据库针对不同的产品也许还有一
使用独立应用程序将数据添加到 HTTPRepository 时出现 RDF4J RIO UnsupportedRDFormatException

我有一个HTTPRepository使用存储库的 URL 进行初始化我用一个RepositoryConnection检索天气数据并将其添加到存储库从 Web 服务检索数据然后将其转换为 RDF 语句并添加到存储库中这是由独立应
如何使用 Spring MVC 为每个对象传递列表参数？

我正在使用 Spring MVCRequestMapping这里是为了GET参数下面是我的代码 RequestMapping value index method RequestMethod GET public HashMap
如何在多个其他构建完成后在 teamcity 中构建一个项目而不触发依赖链？

我的问题与在 TeamCity 中进行多个并行构建后触发一次后续构建 https stackoverflow com questions 19806689 trigger subsequent build once after multip
React-datepicker：仅在 18 岁及以上时才启用设置日期

我有一个表单用户可以在其中提交一些所需的信息其中一个字段是出生日期我在用反应日期选择器 https github com Hacker0x01 react datepicker该特定领域的包一段代码如下所示
Pandas：无法根据字符串相等性进行过滤

在 python 2 7 OSX 上使用 pandas 0 16 2 我从 csv 文件中读取数据框如下所示 import pandas as pd data pd read csv my csv file csv sep t skipr
XML 映射的 PATH 元素中的 POSITION() 函数在 XML 映射器中有效，但在 SAS 代码中无效

我正在尝试将 xml 文件导入到 SAS Xml 文件是 Google 对地址请求的地理响应这是它的片段
Symfony2：如何获取一种类型的所有标有“EDIT”ACL权限的实体？

有人可以告诉我如何获取一种类型的所有标有编辑 ACL 权限的实体吗我想使用 Doctrine EntityManager 构建一个查询我不相信有默认的方法可以做到这一点您可以做的是编写自己的服务添加一个Filter给你的Doctr
“操作系统”和“命令外壳”之间有什么区别？

操作系统和命令外壳之间有什么区别 shell 和操作系统是不同的让我解释操作系统是由 BIOS 或 EFI 启动的程序操作系统控制硬件的非常低级的方面并向软件提供 API 来使用它们操作系统通常是内核和一堆应用程序的集合操
python，用pandas对数据帧进行降序排序

我正在尝试按降序对数据框进行排序我在升序参数中输入 False 但我的顺序仍然是升序我的代码是 from pandas import DataFrame import pandas as pd d one 2 3 1 4 5 two 5
函数解密抛出 javax.crypto.BadPaddingException：android 中的 SimpleCrypto 类中的填充块已损坏

我正在编写一个 Android 应用程序来解密存储在文件中的一些文本我使用了以下代码 public class SimpleCrypto public static String encrypt String seed String cl
Angular 6 在 angular.json 中加载 css 文件夹

我正在尝试将我的 html 模板转换为角度应用程序我有一个名为plugins 的css 文件夹和一个img 文件夹当我添加时 styles src assets plugins listtyicons style css src ass
更改 MUI 文本字段的多个组件根

根据此处的 MUI Textfield API Textfield 是以下组件之上的简单抽象表单控件 Input 输入标签填充输入概述输入 Input 表单辅助文本因此要更改上述任何组件的 Textfield 样式例如 notc
如何为 MySQL 数据库中的所有时间戳/DATETIME 添加偏移量？

我有一些 MySQL 数据库其中有多个表其中包含除其他外一些 DATETIME 列我正在寻找一种方法来向整个数据库中的所有 DATETIME 列添加一定的时间比如一年如果数据最初写入数据库时系统时间错误这会很有用或者就
在 Java 中寻找 Chromakekey 库 [关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案我想知道是否有人知道用 Java 编写的色键库我希望使用 Java 编辑绿屏图像的内容以补充现有的
如何将 jqgrid 值作为表单字段提交？

我正在尝试在用户填写传统表单字段例如用户名电话等的表单中使用 jqGrid 该表单包含用于行项目的 jqGrid 用户可以在其中添加编辑删除行完成后提交整个表格我让网格按我希望的方式工作我只是无法将网格的内容作为包含表单的一
Numpy 直方图表示具有相同近似值的浮点数

我有代码可以在给定范围 0 1 的情况下生成从 10 到 10 的特定值该代码采用 10 到 10 之间的值并根据其概率将其附加到列表中例如 10 将在列表中放入 0 次因为它对应于值 0 而 10 将在列表中放入 100 次作为
Scrapy：根据下载图像的网址，从下载的图像中创建文件夹结构

我有一系列定义网站结构的链接从这些链接下载图像时我想同时将下载的图像放置在类似于网站结构的文件夹结构中而不仅仅是重命名它如中所回答 Scrapy图片下载如何使用自定义文件名 https stackoverflow com quest

Scrapy：根据下载图像的网址，从下载的图像中创建文件夹结构

Scrapy：根据下载图像的网址，从下载的图像中创建文件夹结构 的相关文章

随机推荐

热门标签

Scrapy：根据下载图像的网址，从下载的图像中创建文件夹结构的相关文章