Python Scrapy：将相对路径转换为绝对路径

2024-06-25

我根据下面的伟大人士提供的解决方案修改了代码；我收到代码下方显示的错误。

from scrapy.spider import BaseSpider
from scrapy.selector import HtmlXPathSelector
from scrapy.utils.response import get_base_url
from scrapy.utils.url import urljoin_rfc
from dmoz2.items import DmozItem

class DmozSpider(BaseSpider):
   name = "namastecopy2"
   allowed_domains = ["namastefoods.com"]
   start_urls = [
    "http://www.namastefoods.com/products/cgi-bin/products.cgi?Function=show&Category_Id=4&Id=1",
    "http://www.namastefoods.com/products/cgi-bin/products.cgi?Function=show&Category_Id=4&Id=12",    

]

def parse(self, response):
    hxs = HtmlXPathSelector(response)
    sites = hxs.select('/html/body/div/div[2]/table/tr/td[2]/table/tr')
    items = []
    for site in sites:
        item = DmozItem()
        item['manufacturer'] = 'Namaste Foods'
        item['productname'] = site.select('td/h1/text()').extract()
        item['description'] = site.select('//*[@id="info-col"]/p[7]/strong/text()').extract()
        item['ingredients'] = site.select('td[1]/table/tr/td[2]/text()').extract()
        item['ninfo'] = site.select('td[2]/ul/li[3]/img/@src').extract()
        #insert code that will save the above image path for ninfo as an absolute path
        base_url = get_base_url(response)
        relative_url = site.select('//*[@id="showImage"]/@src').extract()
        item['image_urls'] = urljoin_rfc(base_url, relative_url)
        items.append(item)
    return items

我的 items.py 看起来像这样：

from scrapy.item import Item, Field

class DmozItem(Item):
    # define the fields for your item here like:
    productid = Field()
    manufacturer = Field()
    productname = Field()
    description = Field()
    ingredients = Field()
    ninfo = Field()
    imagename = Field()
    image_paths = Field()
    relative_images = Field()
    image_urls = Field()
    pass

我需要蜘蛛为 items['relative_images'] 获取的相对路径转换为绝对路径并保存在 items['image_urls'] 中，以便我可以从该蜘蛛本身下载图像。例如，蜘蛛获取的relative_images路径是“../../files/images/small/8270-BrowniesHiResClip.jpg”，应将其转换为“http://namastefoods.com/files/images/small” /8270-BrowniesHiResClip.jpg', & 存储在 items['image_urls'] 中

我还需要将 items['ninfo'] 路径存储为绝对路径。

运行上述代码时出错：

2011-06-28 17:18:11-0400 [scrapy] INFO: Scrapy 0.12.0.2541 started (bot: dmoz2)
2011-06-28 17:18:11-0400 [scrapy] DEBUG: Enabled extensions: TelnetConsole, SpiderContext, WebService, CoreStats, CloseSpider
2011-06-28 17:18:11-0400 [scrapy] DEBUG: Enabled scheduler middlewares: DuplicatesFilterMiddleware
2011-06-28 17:18:11-0400 [scrapy] DEBUG: Enabled downloader middlewares: HttpAuthMiddleware, DownloadTimeoutMiddleware, UserAgentMiddleware, RetryMiddleware, DefaultHeadersMiddleware, RedirectMiddleware, CookiesMiddleware, HttpCompressionMiddleware, DownloaderStats
2011-06-28 17:18:11-0400 [scrapy] DEBUG: Enabled spider middlewares: HttpErrorMiddleware, OffsiteMiddleware, RefererMiddleware, UrlLengthMiddleware, DepthMiddleware
2011-06-28 17:18:11-0400 [scrapy] DEBUG: Enabled item pipelines: MyImagesPipeline
2011-06-28 17:18:11-0400 [scrapy] DEBUG: Telnet console listening on 0.0.0.0:6023
2011-06-28 17:18:11-0400 [scrapy] DEBUG: Web service listening on 0.0.0.0:6080
2011-06-28 17:18:11-0400 [namastecopy2] INFO: Spider opened
2011-06-28 17:18:12-0400 [namastecopy2] DEBUG: Crawled (200) <GET http://www.namastefoods.com/products/cgi-bin/products.cgi?Function=show&Category_Id=4&Id=12> (referer: None)
2011-06-28 17:18:12-0400 [namastecopy2] ERROR: Spider error processing <http://www.namastefoods.com/products/cgi-bin/products.cgi?Function=show&Category_Id=4&Id=12> (referer: <None>)
    Traceback (most recent call last):
      File "/System/Library/Frameworks/Python.framework/Versions/2.6/Extras/lib/python/twisted/internet/base.py", line 1137, in mainLoop
        self.runUntilCurrent()
      File "/System/Library/Frameworks/Python.framework/Versions/2.6/Extras/lib/python/twisted/internet/base.py", line 757, in runUntilCurrent
        call.func(*call.args, **call.kw)
      File "/System/Library/Frameworks/Python.framework/Versions/2.6/Extras/lib/python/twisted/internet/defer.py", line 243, in callback
        self._startRunCallbacks(result)
      File "/System/Library/Frameworks/Python.framework/Versions/2.6/Extras/lib/python/twisted/internet/defer.py", line 312, in _startRunCallbacks
        self._runCallbacks()
    --- <exception caught here> ---
      File "/System/Library/Frameworks/Python.framework/Versions/2.6/Extras/lib/python/twisted/internet/defer.py", line 328, in _runCallbacks
        self.result = callback(self.result, *args, **kw)
      File "/***/***/***/***/***/***/spiders/namaste_copy2.py", line 30, in parse
        item['image_urls'] = urljoin_rfc(base_url, relative_url)
      File "/Library/Python/2.6/site-packages/Scrapy-0.12.0.2541-py2.6.egg/scrapy/utils/url.py", line 37, in urljoin_rfc
        unicode_to_str(ref, encoding))
      File "/Library/Python/2.6/site-packages/Scrapy-0.12.0.2541-py2.6.egg/scrapy/utils/python.py", line 96, in unicode_to_str
        raise TypeError('unicode_to_str must receive a unicode or str object, got %s' % type(text).__name__)
    exceptions.TypeError: unicode_to_str must receive a unicode or str object, got list

2011-06-28 17:18:15-0400 [namastecopy2] DEBUG: Crawled (200) <GET http://www.namastefoods.com/products/cgi-bin/products.cgi?Function=show&Category_Id=4&Id=1> (referer: None)
2011-06-28 17:18:15-0400 [namastecopy2] ERROR: Spider error processing <http://www.namastefoods.com/products/cgi-bin/products.cgi?Function=show&Category_Id=4&Id=1> (referer: <None>)
    Traceback (most recent call last):
      File "/System/Library/Frameworks/Python.framework/Versions/2.6/Extras/lib/python/twisted/internet/base.py", line 1137, in mainLoop
        self.runUntilCurrent()
      File "/System/Library/Frameworks/Python.framework/Versions/2.6/Extras/lib/python/twisted/internet/base.py", line 757, in runUntilCurrent
        call.func(*call.args, **call.kw)
      File "/System/Library/Frameworks/Python.framework/Versions/2.6/Extras/lib/python/twisted/internet/defer.py", line 243, in callback
        self._startRunCallbacks(result)
      File "/System/Library/Frameworks/Python.framework/Versions/2.6/Extras/lib/python/twisted/internet/defer.py", line 312, in _startRunCallbacks
        self._runCallbacks()
    --- <exception caught here> ---
      File "/System/Library/Frameworks/Python.framework/Versions/2.6/Extras/lib/python/twisted/internet/defer.py", line 328, in _runCallbacks
        self.result = callback(self.result, *args, **kw)
      File "/***/***/***/***/***/***/spiders/namaste_copy2.py", line 30, in parse
        item['image_urls'] = urljoin_rfc(base_url, relative_url)
      File "/Library/Python/2.6/site-packages/Scrapy-0.12.0.2541-py2.6.egg/scrapy/utils/url.py", line 37, in urljoin_rfc
        unicode_to_str(ref, encoding))
      File "/Library/Python/2.6/site-packages/Scrapy-0.12.0.2541-py2.6.egg/scrapy/utils/python.py", line 96, in unicode_to_str
        raise TypeError('unicode_to_str must receive a unicode or str object, got %s' % type(text).__name__)
    exceptions.TypeError: unicode_to_str must receive a unicode or str object, got list

2    011-06-28 17:18:15-0400 [namastecopy2] INFO: Closing spider (finished)
2011-06-28 17:18:15-0400 [namastecopy2] INFO: Spider closed (finished)

谢谢。-TM

From Scrapy 文档 https://doc.scrapy.org/en/latest/intro/tutorial.html?highlight=relative#following-links:

def parse(self, response):
    # ... code ommited
    next_page = response.urljoin(next_page)
    yield scrapy.Request(next_page, self.parse)

那是，response对象有一个方法可以做到这一点。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Python Scrapy：将相对路径转换为绝对路径的相关文章

使用seaborn，我如何在散点图上画一条我选择的线？

我希望能够在seaborn 生成的图中画出一条符合我规范的线我选择的图是 JointGrid 但任何散点图都可以我怀疑seaborn可能不容易做到这一点以下是绘制数据的代码来自 Iris 数据集的花瓣长度和花瓣宽度的数据帧 impo
当鼠标悬停时使用 matplotlib 注释绘图的线条[重复]

这个问题在这里已经有答案了我想在鼠标悬停时在绘图上注释不同的线这里用点进行相同的操作当鼠标悬停在 matplotlib 中的某个点上时可以显示标签吗 https stackoverflow com questions 7908636 p
Python XLWT调整列宽

XLWT 的易用性给我留下了深刻的印象但有一件事我还没有弄清楚该怎么做我正在尝试将某些行调整为显示所有字符所需的最小宽度换句话说如果双击单元格之间的分隔线 excel 会做什么我知道如何将列宽调整为预定量但我不确定如何确定显示所
如何显示 pymongo.errors.OperationFailure 详细信息？

写入 MongoDB 时我在 python 中遇到 pymongo OperationsFailure 除了回溯之外还有没有办法打印出详细信息或代码属性另请参阅 http api mongodb org python current
Python Turtle 中的 onkeypress() 和 Listen() 问题

我的一个功能有问题我使用 Python 3 7 当我尝试使用onkeypress 函数什么也没有发生我尝试检查它但是当我按键时乌龟模块没有反应我尝试使用 w 键向上移动桨但这不起作用以下是我的 py 文件 main py im
SQLAlchemy如何为同一个表定义两个模型

我有一个表其中一列是具有两个值的 varchar groupA groupB 当我创建模型时我想实现两件事 A 组模型包含 X 数量的相关函数 B 组模型包含 Y 数量的相关函数两个模型的功能并不相同尽管它们代表了same ta
如何在Tensorflow中读取json文件？

我正在尝试编写一个函数用于读取张量流中的 json 文件 json 文件具有以下结构 bounding box y 98 5 x 94 0 height 197 width 188 rotation yaw 27 970195770263
从两个列表中查找总和等于 x 的 2 个数字的最快方法

我的代码 n 3 a1 0 b1 10 a2 2 b2 2 if b1 gt n b1 n if b2 gt n b2 n diap1 x for x in range a1 b1 1 diap2 x for x in range a2 b
Tastypie：GET 的身份验证和 POST 的匿名

我使用 Django Tastypie 来管理我的用户集合是否可以允许匿名用户在 API 中发布在某个端点创建新用户时并限制经过身份验证的用户仅获取自己的用户而不是所有用户感谢您的帮助我发现最简单的事情就是对我正在使用的身份验证
如何实例化具有已知系数的 Scikit-Learn 线性模型而不进行拟合

背景作为实验的一部分我正在测试各种保存的模型但其中一个模型来自我编写的算法而不是来自 sklearn 模型拟合但是我的自定义模型仍然是线性模型所以我想实例化一个LinearModel实例并设置coef and intercep
在Python中绘制像素的最佳方法[关闭]

Closed 这个问题需要细节或清晰度 help closed questions 目前不接受答案我想知道用 x 和 y 值在 python 中绘制像素的最简单方法是什么可能最简单的方法是使用PIL http effbot org i
OSMNX - 边缘的哪个“部分”被认为是最近的

我正在使用 OSMNX 中的 returned edges 函数我不清楚在进行此计算时使用边缘的哪个部分它是边缘的任何部分吗是中间点吗对于网络中的长边来说这会产生很大的差异这取决于您如何参数化该函数来自nearest edg
如何向 Iron Python 添加模块？

我一直在尝试使用 C Visual Studio 执行以下 Python 代码 graphcreater py 我通过 NuGet 包管理器添加了 IronPyton 2 7 7 和 IronPython StdLib 2 7 7 一旦我运
当使用 cx_Freeze 和 tkinter 时，我得到：“DLL 加载失败：找不到指定的模块。” （Python 3.5.3）

当使用 cx Freeze 和 Tkinter 时我收到以下消息 File C Users VergilTheHuragok AppData Local Programs Python Python35 32 lib tkinter in
在 ubuntu 12.04 上安装 ReviewBoard

我正在尝试使用 easy install 在 ubuntu 12 04 上安装 ReviewBoard http www reviewboard org docs manual 1 7 admin installation linux ht
二进制补码扩展 python？

我想知道是否有一种方法可以像在 Python 中的 C C 中一样使用标准库最好在位数组上进行二进制补码符号扩展 C C Example program include
如何在 python setup.py 中 chmod 文件？

我使用 setup py 创建了一个 python 包安装我希望它复制文件夹为临时创建的 did 中的数据文件问题是我必须使用 sudo 权限调用 setup py 因为它写入 usr local 因此当我的数据文件复制到 did
如何在（最好是纯）Python 中解码 QR 码图像？

TL DR 我需要一种使用最好是纯 Python 从图像文件中解码 QR 码的方法我有一个带有 QR 码的 jpg 文件我想使用 Python 对其进行解码我发现有几个库声称可以做到这一点 PyQRCode 网站在这里 http p
Android Systrace 没有这样的文件或目录

这是错误消息 D Programming Tools ADT bundle sdk platform tools systrace gt python systrace py Traceback most recent call last
使用 Python 和 lxml 从 HTML 中删除类属性

Question 如何使用 python 和 lxml 从 html 中删除类属性 Example I have p class DumbClass Lorem ipsum dolor sit amet consectetur adipis

随机推荐

使 django 中的内联表单集成为必需

我是 django 的新手到目前为止我使用的是 symfony PHP 框架我的问题是这样的我有一个模型事件和模型日期日期有一个事件的外键因此事件可以或应该有一个或多个日期现在我想要一个表单来创建事件并且该表单应包含一个
将 Linq 表达式转换为 SQL Server 查询

我正在使用一些 crm 框架该框架没有任何内部 orm 并且不使用实体框架仅使用纯 sql 查询我在数据库中的每个表都有实体所以我有例如 public class Customer public string FirstName g
分支和文件夹的 gitolite 权限

在 gitolite 我想要 developers能够推送到除以下之外的任何分支master I want user1能够推送到任何分支包括master 除了不是某个目录master 我该怎么做呢这应该解决以下两个问题 repo are
为什么Java中没有多重继承，但允许实现多个接口？

Java 不允许多重继承但它允许实现多个接口为什么因为接口只指定what班级正在做而不是how它正在这样做多重继承的问题是两个类可能定义不同的方式做同样的事情并且子类无法选择选择哪一个
C++ 类型特征

我知道它们对有关您实例化它们的类型的信息进行编码但是它们是如何工作的比如说类型特征std is class 它是如何工作的所有的实现看起来都像是空的结构我必须承认我正在摸不着头脑这些名字看起来足够具有描述性所以我能理解它们的意
将textView和图像对齐在同一行JAVA [关闭]

Closed 这个问题需要调试细节 help minimal reproducible example 目前不接受答案我创建了Food使用下面的代码选项卡 JTabbedPane tabbedPane new JTabbedPane JT
为什么带有 unsigned long long 参数的 std::bitset 构造函数未标记为显式？

标准库类模板std bitset
如何在 Watson Assistant 上切换技能？

目前在 IBM Watson Assistant 中您只能向助理分配一项技能如何以编程方式交换助手的主要技能未来的计划是让 Assistant 支持多种技能以及自定义技能暂时作为数据 henrik https stackoverf
基于两列值的VLOOKUP

我有一个表其中一列包含用户 ID 这些被多次输入以显示特定主题的结果 ID Topic Pass Fail 71086686 Science P 71086686 Maths P 71086686 Tech P 71086686 ICT
为什么不使用 sshrc 中设置的 $PATH？

我正在尝试在 OS X 服务器上通过 ssh 设置 svn 为了做到这一点我读到我需要一个包装器来设置 umask 并在我的例子中设置存储库根一种快速而肮脏的方法是重命名 usr bin svnserve并将包装器脚本放置在该位置
将跨度值存储到 JavaScript 变量中

我正在尝试编写 javascript 它将遍历一个跨度获取其值并将其存储在可用于执行算术的变量中 span class ServerData 30 span span class ServerData 6 span 关于以上两行我的功
如何删除Postman中的会话cookie？

我正在 Postman 中测试我的 API 但在模拟时遇到问题log out If I do a call to delete the session cookie the session cookie is still there aft
如何在 mongodb 中对数组进行 AND 查询？

我有一个带有标签的数组它是文档的一部分例如红绿蓝白黑现在我想找到所有有红色和蓝色的文档使用 all 条件查找同时匹配红色和蓝色条件的记录 db my collection find tags all red blu
公共还是私人？

我真的不明白为什么将成员变量和成员函数设为私有通常是一种好的做法是为了防止人们搞砸事情更多的是为了组织工具吗基本上是的这是为了防止人们搞砸事情封装信息隐藏是您正在寻找的术语通过仅向外界发布最少的信息您可以根据需要自由地更
角度2：语法错误：意外的标记<（...）

我知道这个问题已经被问过但我找不到适合我的特定情况的解决方案我无法理解错误的真正原因我有一个运行良好的 angularjs2 应用程序现在我想导入marked图书馆我做了什么 npm install marked tsd ins
如何避免按后退按钮/键返回登录布局？

我想为我的研究所创建一个应用程序问题是我的应用程序将有两种布局登录和仪表板学生可以正确填写登录表单进入仪表板按下按钮以及填写其他字段但是如果用户随后按下后退按钮则不应返回到登录屏幕而应保留在仪表板中或者如果失败则退出
Linux 上共享内存的生命周期是多长

我正在使用 ftok shmget shmat shmdt 函数在 Linux 上创建写入和读取共享段如果我写入一个程序中的段然后退出然后稍后从另一个程序中读取该段我会惊讶地发现数据仍然存在我预计当共享一个段的最后一个进程执行
Logstash 输出到文件并忽略编解码器

请有人向我解释一下为什么logstash 一直忽略我正在尝试设置的 codec gt plain gt format 设置我正在使用的 cfg 文件 input gelf host gt some ip port gt 12201 ou
您可以播放 iPod 库中的视频吗？

iOS4 中是否可以播放 iPod 库中的视频或者仍然仅限于音频我找不到任何明确的答案但 SDK 似乎不允许视频不你不能那样做检查 iPod Library Access 编程指南它说 iPod 库访问仅适用于基于音频的媒体项
Python Scrapy：将相对路径转换为绝对路径

我根据下面的伟大人士提供的解决方案修改了代码我收到代码下方显示的错误 from scrapy spider import BaseSpider from scrapy selector import HtmlXPathSelector f

Python Scrapy：将相对路径转换为绝对路径

Python Scrapy：将相对路径转换为绝对路径 的相关文章

随机推荐

热门标签

Python Scrapy：将相对路径转换为绝对路径的相关文章