无需显式定义要抓取的每个字段即可抓取数据

2024-01-25

我想抓取一页数据（使用 Python Scrapy 库），而不必定义页面上的每个单独字段。相反，我想使用动态生成字段id元素的名称作为字段名称。

起初我认为最好的方法是建立一个收集所有数据的管道，并在收集完所有数据后将其输出。

然后我意识到我需要将数据传递到项目中的管道，但我无法定义项目，因为我不知道它需要哪些字段！

我解决这个问题的最佳方法是什么？

Update:

旧方法不适用于物品装载机 http://doc.scrapy.org/en/latest/topics/loaders.html并使事情变得不必要地复杂化。这是实现灵活项目的更好方法：

from scrapy.item import BaseItem
from scrapy.contrib.loader import ItemLoader

class FlexibleItem(dict, BaseItem):
    pass

if __name__ == '__main__':
    item = FlexibleItem()
    loader = ItemLoader(item)

    loader.add_value('foo', 'bar')
    loader.add_value('baz', 123)
    loader.add_value('baz', 'test')
    loader.add_value(None, {'abc': 'xyz', 'foo': 555})

    print loader.load_item()

    if 'meow' not in item:
        print "it's not a cat!"

Result:



{'foo': ['bar', 555], 'baz': [123, 'test'], 'abc': ['xyz']}
it's not a cat!

旧的解决方案：

好的，我已经找到解决方案了。这有点“黑客”，但它有效。

Scrapy Item 将字段名称存储在名为的字典中fields。当向项目添加数据时，它会检查该字段是否存在，如果不存在，则会抛出错误：

def __setitem__(self, key, value):
    if key in self.fields:
        self._values[key] = value
    else:
        raise KeyError("%s does not support field: %s" %\
              (self.__class__.__name__, key))

你能做的就是覆盖这个__setitem__函数不那么严格：

class FlexItem(Item):
    def __setitem__(self, key, value):
        if key not in self.fields:
            self.fields[key] = Field()

        self._values[key] = value

就这样吧。

现在，当您向项目添加数据时，如果该项目没有定义该字段，则会添加该字段，然后正常添加数据。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

Scrapy

无需显式定义要抓取的每个字段即可抓取数据的相关文章

QSortFilterProxyModel + QAbstractItemModel modelIndex.internalPointer() 导致崩溃

我在 PyQt 4 8 Python 2 7 中实现了自己的 QAbstractItemModel class FriendListModel QtCore QAbstractItemModel def init self groups c
OpenCV Python 删除图像中的某些对象

我正在使用带有 opencv 和 numpy 的 python 来检测天文中的星星例如这个1 https i stack imgur com AKwEJ jpg图片使用模板匹配我可以用阈值检测星星单击 2 2 https i sta
使用 GeoDjango 在坐标系之间进行转换

我正在尝试将坐标信息添加到我的数据库中添加django contrib gis支持我的应用程序我正在写一个south数据迁移从数据库中获取地址并向 Google 询问坐标到目前为止我认为我最好的选择是使用geopy为了这接下来
01 无效令牌[重复]

这个问题在这里已经有答案了嘿学习 python3有一段时间了遇到字典和dictionary name get 方法并尝试获取随机键值问题 data data get key 1 它有效并且返回 1 但如果我使用data get ke
使用 K 均值聚类 OpenCV 进行交通标志分割

I used K Means Clustering to perform segmentation on this traffic sign as shown below 这些是我的代码读取图像并模糊 img cv imread 000
将 JSON 字符串传递给 Django 模板

我一直在用头撞墙试图找出为什么我无法将从 Django 模型生成的 JSON 字符串传递到模板的 javascript 静态文件中事实证明问题不在模型级别使用serializers serialize 在脚本本身中放入相同的字符串将
Python/Flask：应用程序在关闭后正在运行

我正在开发一个简单的 Flask Web 应用程序我使用 Eclipse Pydev 当我开发该应用程序时由于代码更改我必须经常重新启动该应用程序这就是问题所在当我运行该应用程序时我可以在本地主机上看到该框架这很好但是当我想
检查对象数组中的多个属性匹配

我有一个对象数组它们都是相同的对象类型并且它们有多个属性有没有办法返回一个较小的对象数组其中所有属性都与测试用例字符串匹配无论该属性类型是什么使用列表理解all http docs python org 3 library f
如何在Python中正确声明ctype结构+联合？

我正在制作一个二进制数据解析器虽然我可以依靠 C 但我想看看是否可以使用 Python 来完成该任务我对如何实现这一点有一些了解我当前的实现如下所示 from ctypes import class sHeader Structure
Python将csv数据导出到文件中

我有以下运行良好的代码但我无法修剪数据并将其存储在数据文件中 import nltk tweets love this car this view amazing not looking forward the concert def g
指定 Parquet 属性 pyspark

如何在 PySpark 中指定 Parquet 块大小和页面大小我到处搜索但找不到任何有关函数调用或导入库的文档根据火花用户档案 https mail archives apache org mod mbox spark user 2
散景中的时间序列流

我想在散景中绘制实时时间序列我只想在每次更新时绘制新的数据点我怎样才能做到这一点散景网站上有一个动画情节的示例但它每次都需要重新绘制整个图片另外我正在寻找一个简单的示例我可以在其中逐点绘制时间序列的实时绘图散景效果0 11
如何在 Tkinter 的 Button 小部件中创建多个标签？

我想知道如何在 Tkinter 中创建具有多个标签的按钮小部件如下图所示带有子标签的按钮 https i stack imgur com jOZRw jpg正如您所看到的在某些按钮中有一个子标签例如按钮 X 有另一个小标签 A 我试
pandas apply：函数名是否带引号的区别

简单数据框定义示例 df pd DataFrame A 2 4 1 B 8 4 1 C 6 2 7 df A B C 0 2 8 6 1 4 4 2 2 1 1 7 尝试理解以下块中函数参数调用的差异 df apply sum df app
如何使用 python-gnupg 加密大型数据集而不占用所有内存？

我的磁盘上有一个非常大的文本文件假设它是 1 GB 或更多还假设该文件中的数据有 n每 120 个字符一个字符我在用python gnupg https pythonhosted org python gnupg 对此文件进行加密由
对 pandas 数据框中的每一列应用函数

我如何以更多的熊猫方式编写以下函数 def calculate df columns mean self df means for column in df columns columns tolist cleaned data self
python 的 fcntl.flock 函数是否提供文件访问的线程级锁定？

Python 的 fcnt 模块提供了一种名为 flock 1 的方法来证明文件锁定其描述如下对文件执行锁定操作op 描述符 fd 文件对象提供 fileno 方法被接受为出色地请参阅 Unix 手册集群 2 了解详情在某些系统上
如何获取所有Python标准库模块的列表？

我想要类似的东西sys builtin module names标准库除外其他不起作用的事情 sys modules 只显示已经加载的模块 sys prefix 包含非标准库模块并且似乎无法在 virtualenv 内工作的路径我想要这
在 pip 中为 Flask 应用程序构建 docker 映像失败

from alpine latest RUN apk add no cache python3 dev pip3 install upgrade pip WORKDIR backend COPY backend RUN pip no cac
使用Python的timeit获取“全局名称'foo'未定义”

我想知道执行一条Python语句需要多少时间所以我上网查了一下发现标准库提供了一个名为timeit http docs python org library timeit html旨在做到这一点 import timeit def fo

随机推荐

Android 中的聊天应用程序，以便发送者和接收者消息应该位于不同的一侧

protected void onPostExecute ArrayList
如何使用资产管道在邮件程序中拥有样式表的绝对路径？

我的邮件模板中的视图助手为我提供了样式表和图像的相对 URL 当然例如如果我在 Gmail 中查看电子邮件则此方法将不起作用 In apps views layouts mailer html erb 呈现为 a href http
调试时 GCC 中的自定义 C++ 分配器太慢。有解决办法吗？

我正在努力解决自定义分配器的性能问题我的问题是关于调试版本通常情况下如果只有一点点下降我并不介意但目前我正在以 4fps 播放某些内容而如果没有自定义分配器则播放速度为 60fps 并且可能会更快这使得软件开发变得更加困难
在字符串末尾增加整数

我有一个很强的芝加哥伊利诺伊州我想在它的末尾添加一个所以它将是芝加哥伊利诺伊州注意它也可能是芝加哥伊利诺伊州 10 我希望它去芝加哥伊利诺伊州 11 所以我不能做 substr 有什么建议的解决方案吗一个非常简单的问题
Python：pyswip 输出返回 Atom 和 Functor

基于一些较旧的post https stackoverflow com questions 63890053 prolog define logical operator in prolog as placeholder for other
RabbitMQ Consumer总是直接关闭（C#）

目前我正在学习如何使用 RabbitMQ 发送作品但接收不起作用这是我的代码 var factory new ConnectionFactory HostName hostName using var connection factor
带有接口的instanceof [重复]

这个问题在这里已经有答案了如果我尝试将instanceof运算符与错误的类一起使用我会收到编译错误动物无法转换为字符串但使用接口时我不会收到编译时错误例如在第 10 行中我收到编译错误因为 Animal 不是 String
React Native父子通信并返回值

我是反应本机环境的初学者我想了解本机反应中的亲子沟通家长将一个数字传递给孩子例如家长将 2 传递给孩子子级将有一个处理函数将相同的数字乘以 2 次并将结果返回给父级作为示例 2 2 并返回父级将调用子函数并查看输出是否正确并
如何修复我的生成器角度项目以便 grunt 测试有效？

我正在学习本教程 http www sitepoint com kickstart your angularjs development with yeoman grunt and bower http www sitepoint com
Python 和 Pylance VS Code 扩展之间有什么区别？

我刚刚从老朋友 Sublime 转向 VSCode 我真的很喜欢它的工作方式和它所具有的功能我是一名 Python 开发新手我发现了 VSCode 的两个流行的 python 扩展 Python 和 PyLance 我的问题是 Pyth
FileSystemWatcher OnChanged 事件需要重新加入 UI 线程

如何在 FileSystemWatcher 中获取 OnChanged 事件以便在 OnChanged 事件完成后调用 UI 线程上的方法或者只是为了了解知识如何让 OnChanged 事件完全在 UI 线程上运行如果你想File
Java HttpSession

java servlet中的HttpSession是在之后才创建的吗 HttpSession s request getSession 在我的代码中我没有这样写但是当我使用时if request getSession false null
Ufw 防火墙阻止 kubernetes（使用 calico）

我正在尝试在我的服务器 Debian 10 上安装 kubernetes 集群在我的服务器上我使用 ufw 作为防火墙在创建集群之前我在 ufw 上允许了这些端口 179 tcp 4789 udp 5473 tcp 443 tcp
Apache的Mesos和Google的Kubernetes有什么区别

Apache的Mesos和Google的Kubernetes到底有什么区别据我了解两者都是服务器集群管理软件任何人都可以详细说明主要区别在哪里什么时候会首选哪个框架你为什么要使用Kubernetes 位于 Mesosphere 之
设置已发布的 npm 项目的“根”

我正在发布一个名为的 npm 包foo到 npm 注册表我使用compile to js 语言编写了该包为了理智起见我将编译的输出放入dist 项目目录的文件夹我的package json将入口点列出为dist entry js n
Azure Web Apps 是否在多个实例之间共享磁盘？

根据大卫埃博 David Ebbo 在Azure 运行时环境 https github com projectkudu kudu wiki Azure runtime environment file system本文中当您启动 2 个
为什么“du”的输出通常与“du -b”如此不同

为什么输出是du通常与du b b是简写 apparent size block size 1 仅使用 apparent size大多数时候给我相同的结果但是 block size 1似乎可以解决问题我想知道输出是否正确哪些数字是我想
docker compose 会自动创建端口映射吗？

我在 Visual Studio 2019 中创建了一个简单的 asp net core 应用程序并添加了 docker 支持 Dockerfile dockerignore 和 docker compose 文件均已创建在命令提示符中
数据库设计：跟踪每个用户的大量属性。如此之多，我可能会用完列（行存储空间）

对于我所关心的问题我希望得到一些意见我的数据库中有一个 User 表其中包含您期望的基本内容例如用户名密码等该应用程序要求我跟踪每个用户的大量属性如此之多我可能会用完列行存储空间我很想添加一个包含 UserID Prop
无需显式定义要抓取的每个字段即可抓取数据

我想抓取一页数据使用 Python Scrapy 库而不必定义页面上的每个单独字段相反我想使用动态生成字段id元素的名称作为字段名称起初我认为最好的方法是建立一个收集所有数据的管道并在收集完所有数据后将其输出然后我意识到我需要

热门标签