使用scrapy到json文件只得到一行输出

2024-04-29

好吧，我对一般编程很陌生，并且具体使用 Scrapy 来实现此目的。我编写了一个爬虫来从 pinterest.com 上的 pin 获取数据。问题是我以前从我正在抓取的页面上的所有引脚获取数据，但现在我只获取第一个引脚的数据。

我认为问题出在管道或蜘蛛本身。在我向蜘蛛添加“条带”以消除空格后，事情发生了变化，但是当我将其改回来时，我得到了相同的输出，但随后又出现了空格。这是蜘蛛：

from scrapy.spider import Spider
from scrapy.selector import Selector
from Pinterest.items import PinterestItem

class PinterestSpider(Spider):
    name = "pinterest"
    allowed_domains = ["pinterest.com"]
    start_urls = ["http://www.pinterest.com/llbean/pins/"]

    def parse(self, response):
        hxs = Selector(response)
        item = PinterestItem()
        items = []
        item ["pin_link"] = hxs.xpath("//div[@class='pinHolder']/a/@href").extract()[0].strip()
        item ["repin_count"] = hxs.xpath("//em[@class='socialMetaCount repinCountSmall']/text()").extract()[0].strip()
        item ["like_count"] = hxs.xpath("//em[@class='socialMetaCount likeCountSmall']/text()").extract()[0].strip()
        item ["board_name"] = hxs.xpath("//div[@class='creditTitle']/text()").extract()[0].strip()
        items.append(item)
        return items

这是我的管道：

from scrapy.xlib.pydispatch import dispatcher
from scrapy import signals
from scrapy.contrib.exporter import JsonLinesItemExporter

class JsonLinesExportPipeline(object):

    def __init__(self):
        dispatcher.connect(self.spider_opened, signals.spider_opened)
        dispatcher.connect(self.spider_closed, signals.spider_closed)
        self.files = {}

    def spider_opened(self, spider):
        file = open('%s_items.json' % spider.name, 'w+b')
        self.files[spider] = file
        self.exporter = JsonLinesItemExporter(file)
        self.exporter.start_exporting()

    def spider_closed(self, spider):
        self.exporter.finish_exporting()
        file = self.files.pop(spider)
        file.close()

    def process_item(self, item, spider):
        self.exporter.export_item(item)
        return item

当我使用命令“scrapycrawlpinterest”时，这是我在 JSON 文件中得到的输出：

"pin_link": "/pin/94716398388365841/", "board_name": "Outdoor Fun", "like_count": "14", "repin_count": "94"}

这正是我想要的输出，但我仅从一个引脚获得它，而不是从页面上的所有引脚获得它。我花了很多时间阅读类似的问题，但找不到任何类似的问题。有什么问题的想法吗？提前致谢！

编辑：哦，我猜这是因为 strip 函数之前的 [0] ？抱歉，我刚刚意识到这可能是问题所在......

编辑：嗯，那不是问题。我很确定它必须与剥离功能有关，但我似乎无法正确使用它来获得多个引脚作为输出。解决方案可以作为这个问题的一部分吗？：Scrapy：为什么提取的字符串是这种格式？ https://stackoverflow.com/questions/17000640/scrapy-why-extracted-strings-are-in-this-format我看到一些重叠，但我不知道如何使用它。

编辑：好的，当我像这样修改蜘蛛时：

from scrapy.spider import Spider
from scrapy.selector import Selector
from Pinterest.items import PinterestItem

class PinterestSpider(Spider):
name = "pinterest"
allowed_domains = ["pinterest.com"]
start_urls = ["http://www.pinterest.com/llbean/pins/"]

def parse(self, response):
    hxs = Selector(response)
    sites = hxs.xpath("//div[@class='pinWrapper']")
    items = []
    for site in sites:
        item = PinterestItem()        
        item ["pin_link"] = site.select("//div[@class='pinHolder']/a/@href").extract()[0].strip()
        item ["repin_count"] = site.select("//em[@class='socialMetaCount repinCountSmall']/text()").extract()[0].strip()
        item ["like_count"] = site.select("//em[@class='socialMetaCount likeCountSmall']/text()").extract()[0].strip()
        item ["board_name"] = site.select("//div[@class='creditTitle']/text()").extract()[0].strip()
        items.append(item)
    return items

它确实给了我几行输出，但显然都具有相同的信息，因此它抓取了页面上引脚数量的项目，但都具有相同的输出：

{"pin_link": "/pin/94716398388371133/", "board_name": "Take Me Fishing", "like_count": "3", "repin_count": "21"}
{"pin_link": "/pin/94716398388371133/", "board_name": "Take Me Fishing", "like_count": "3", "repin_count": "21"}
{"pin_link": "/pin/94716398388371133/", "board_name": "Take Me Fishing", "like_count": "3", "repin_count": "21"}
{"pin_link": "/pin/94716398388371133/", "board_name": "Take Me Fishing", "like_count": "3", "repin_count": "21"}

etc.

我没有使用过 Scrapy，所以这是一个疯狂的猜测。

您的选择器正在撤回多个结果。然后，您从每个列表中选择第一个值（使用切片[0]），创建一个single PinterestItem called item，您将其附加到items返回之前列出。似乎没有任何东西会循环选择器返回的所有可能结果。

因此，取出所有结果，然后迭代它们以创建您的items list:

def parse(self, response):
    hxs = Selector(response)
    pin_links = hxs.xpath("//div[@class='pinHolder']/a/@href").extract()
    repin_counts = hxs.xpath("//em[@class='socialMetaCount repinCountSmall']/text()").extract()
    like_counts = hxs.xpath("//em[@class='socialMetaCount likeCountSmall']/text()").extract()
    board_names = hxs.xpath("//div[@class='creditTitle']/text()").extract()

    items = []
    for pin_link, repin_count, like_count, board_name in zip(pin_links, repin_counts, like_counts, board_names):
        item = PinterestItem()
        item["pin_link"] = pin_link.strip()
        item["repin_count"] = repin_count.strip()
        item["like_count"] = like_count.strip()
        item["board_name"] = board_name.strip()
        items.append(item)
    return items

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

使用scrapy到json文件只得到一行输出的相关文章

区分大小写的实体识别

我的关键字全部以小写形式存储例如折扣耐克鞋我正在尝试对其执行实体提取我遇到的问题是 spaCy 在 NER 方面似乎区分大小写请注意我不认为这是 spaCy 特有的当我跑步时 doc nlp u i love nike sho
在推送到容器注册表之前如何对构建的映像运行测试？

从 gitlab 文档中可以看出如何使用 kaniko 创建 docker 镜像 build stage build image name gcr io kaniko project executor debug entrypoint sc
高效地将大型 Pandas 数据帧写入磁盘

我正在尝试找到使用 Python Pandas 高效地将大型数据帧 250MB 写入磁盘或从磁盘写入的最佳方法我已经尝试了所有方法Python 数据分析但表现却非常令人失望这是一个更大项目的一部分该项目探索将我们当前的分析数据管理
在 Jupyter Notebook 中设置环境变量的不同方法

在某些情况下我在 Windows 10 计算机上使用 Jupyter 笔记本我想通过设置环境变量 GOOGLE APPLICATION CREDENTIALS 来向 GCP 进行身份验证我想知道这两种设置环境变量的方式有什么区别当
使用把手显示来自 parse.com 的 json 响应

我想将 json 响应传递给车把我已经查看了解析文档和 stackoverflow 问题但我似乎无法弄清楚这一点这是回应 results address 755 W Yale createdAt 2013 02 09T01 12 15
将多索引转换为行式多维 NumPy 数组。

假设我有一个类似于以下示例的 MultiIndex DataFrame多索引文档 http pandas pydata org pandas docs stable advanced html gt gt gt df 0 1 2 3 fir
dask apply：AttributeError：“DataFrame”对象没有属性“name”

我有一个参数数据框并对每一行应用一个函数该函数本质上是几个 sql queries 和对结果的简单计算我正在尝试利用 Dask 的多处理同时保持结构和界面下面的例子有效并且确实有显着的提升 def get metrics row
同一台机器上有多个Python版本？

Python 网站上是否有关于如何在 Linux 上的同一台计算机上安装和运行多个版本的 Python 的官方文档我可以找到无数的博客文章和答案但我想知道是否有标准官方方法可以做到这一点或者这一切都取决于操作系统我认为它是完全独
Bokeh 中单独的节点和边缘悬停工具？

我正在尝试为 Bokeh 中的节点和边缘获取单独的悬停工具提示但未能使其正常工作有人可以指出我做错了什么吗我相信代码应该如下所示 from bokeh io import show output notebook from bokeh
一个类似 dict 的 Python 类

我想编写一个自定义类其行为类似于dict 所以我继承自dict 不过我的问题是我是否需要创建一个私有的dict我的成员 init 方法我不明白这个有什么意义因为我已经有了dict如果我只是继承自的行为dict 谁能指出为什么大多
在 pygame 中，我如何创建一个数据结构来跟踪调整大小事件和对象的坐标？

我希望在调整屏幕大小后使鼠标事件与对象保持同步有人告诉我需要创建一个数据结构来跟踪调整事件大小新坐标以匹配调整大小如何使用简单的代数方程来完成此操作并将其集成到调整大小事件中以进行准确更新反过来做创建一个虚拟游戏地图在绘制场景
预测测试图像时出现错误 - 无法重塑大小数组

我正在尝试使用 TensorFlow 和 Keras 在 Python 中进行图像识别并且我已经关注了下面的博客 https stackabuse com image recognition in python with tensorfl
如何全局安装 Python（开发）依赖项，以便我不必在每个 venv 中重新安装它们？

我希望在为每个项目创建的每个 venv 虚拟环境中都可以使用一些 Python 依赖项例如 black flake8 和 pytest 这可能吗如果可以如何实现我想安装这三个once在我的主要 Python 安装下我必须在启动新
如何使用 Jersey 将嵌套列表封送为 JSON？我得到一个空数组或一个包含数组的单元素字典数组

我正在开发一个使用 Jersey 将对象转换为 JSON 的项目我希望能够写出嵌套列表如下所示 data one two three a b c 我想要转换的对象首先将数据表示为 gt gt 我认为 Jersey 会做正确的事情以上输
如何将 JSON 数据从 Android 发送到 php url？

我想将登录信息从我的应用程序发送到 php url 因为这我的应用程序将崩溃任何人都可以帮助我解决这个问题这是我的服务器登录方法我想将数据发送到此登录方法 Method public method login Parameters 3
使用 Sphinx 时，如何记录没有文档字符串的成员？

我正在为我发布的包编写文档我发现您的文档越全面人们就越容易找到您的包来使用废话实际上我在充满爱心地编写代码的所有功能和细节方面获得了很多乐趣然而我对如何为类级变量编写与 Sphinx 兼容的文档感到完全困惑特别是我有一些e
通过新数据更新绘图，而不是在 Jupyter 笔记本中制作新绘图

我有一些问题希望你能帮我解决我需要使用下拉小部件创建交互式绘图我可以在其中选择并绘制感兴趣的数据我通过以下方式做到这一点 import plotly graph objects as go import ipywidgets as
避免“散点/点/蜂群”图中的数据点重叠

使用绘制点图时matplotlib 我想偏移重叠的数据点以使它们全部可见例如如果我有 CategoryA 0 0 3 0 5 CategoryB 5 10 5 5 10 我想要每一个CategoryA 0 数据点并排设置而不是彼此重叠
旧版本的 spaCy 在尝试安装模型时抛出“KeyError: 'package'”错误

我在 Ubuntu 14 04 4 LTS x64 上使用 spaCy 1 6 0 和 python3 5 为了安装 spaCy 的英文版本我尝试运行这给了我错误消息 ubun ner 3 NeuroNER master src pyt
PYTHON：从 txt 文件中删除 POS 标签

我有以下 txt 文件其中包含 POS 词性 http en wikipedia org wiki Part of speech tagging 每个单词的标签不用 jj到说 vb 我 ppss是 bedz愤怒 jj在在 dt无与伦

随机推荐

当无法处理指定的情况时，在 switch 语句中抛出异常

假设我们有一个函数可以在 MVC 应用程序的系统中更改用户的密码 public JsonResult ChangePassword string username string currentPassword string newPassw
如何使用 jquery 迭代多个选择选项

我只是想知道是否可以通过多个选择选项并获取它们的值和文本如果选择一个则获取值和文本如果选择 2 则获取它们的值和文本依此类推我在一页中有 15 个选择框任何帮助将不胜感激
分层数据库模型

我正在设计一个关于宠物的分类网站该网站将包含 3 个主要类别的广告 A Sale B Breeding C Jobs 我面临的问题是所有 3 个广告类别都有一些共同点但也有一些差异例如类别 A B 和 C 都有以下共同点 ca
QMetaObject::invokeMethod 在以下情况下不起作用：

从静态类和非主线程调用简而言之我有一个类 sapp 它有另一个静态类 tobj 作为静态成员为了避免静态顺序初始化失败 tobj 在 sapp 的方法中声明该方法又返回 tobj 实例的指针我的问题是 tobj 有一个计时器应该
在VBA中将html转换为纯文本

我有一个 Excel 工作表其中的单元格包含 html 如何批量将它们转换为明文目前有很多无用的标签和样式我想从头开始写它但如果我能得到纯文本那就容易多了我可以编写一个脚本将 html 转换为 PHP 中的纯文本所以如果您想不
在 Scala 中使用 Some() 和 Option()

我一直在与 Scala 中解析 JSON 字符串的函数式方法的概念作斗争并且在返回 Option something 的情况下碰壁了我提出了这个问题 https stackoverflow com questions 9289647 a
MVC Razor for 循环

我有这段代码嵌套在表单帖子内但我不断收到错误它缺少结束语 for int i 0 i lt itemsCount i
无法通过Anaconda/jupyter获取MNIST数据库

Hu guys 我是 python anaconda jupyter numPy panda 等的新手所以如果这是一个非常愚蠢的问题请原谅我我正在尝试使用 anaconda jupyter 获取 MNIST 数据库但每次我最后都会收
Java 中的引用变量里面有什么？

我们知道对象引用变量保存表示访问对象的方式的位它不保存对象本身但保存诸如指针或地址之类的东西我正在阅读 Head First Java 第 2 版一书书中写道第 3 章第 54 页在 Java 中我们并不真正知道什么是在引用
如何在一个 TextBox 中进行算术运算？

例如我写在TextBox1 4 5 or 3 2 如何让答案出现在同一个文本框中我尝试了这个但无论如何它都不起作用 Private Sub Button1 Click sender As Object e As EventArgs Ha
同步 gRPC 客户端同步/异步服务器

我只是好奇异步 gRPC 服务器是否支持多个客户端的连接如果不是异步的可以吗以及异步服务器同步客户端的组合甚至可能吗是的同步 gRPC 支持开箱即用的多个连接客户端我亲自测试了多达 2000 个同时连接的客户端到一个用 G
从 select2 选定选项获取属性值

我正在使用 Select2 插件http ivaynberg github io select2 select2 latest html http ivaynberg github io select2 select2 latest htm
PostgreSQL 中的字符串匹配

我需要在 PostgreSQL 8 4 中实现正则表达式据我理解匹配似乎正则表达式匹配仅在 9 0 中可用我的需求是当我给出输入时14 1我需要得到这些结果 14 1 1 14 1 2 14 1 Z 但排除 14 1 1 1 14
如何找到与日期范围最重叠的时间段

假设您有一个包含标识符开始时间和结束时间的表这些开始和结束时间可以是任意时间长度开始时间始终早于结束时间假设没有空值什么样的查询会告诉我最流行的时间即每行中的两个范围与大多数其他行重叠的位置它的实际应用是它是一个记录用户登
如何将目录导入为 python 模块

如果有目录 home project aaa 我知道它是一个Python包那么我如何通过知道它的路径来导入这个模块这意味着我希望代码能够正常工作 aaa load module home project aaa 我知道的唯一方法是
执行选项卡切换时避免重新创建相同的视图

目前我有 2Fragments 可通过以下方式切换ActionBar s tab getSupportActionBar setNavigationMode ActionBar NAVIGATION MODE TABS ActionBar
对其他元素值的 XSD 限制

是否可以在 XSD 文档中对其他元素值进行限制例如我有国家和州元素如果国家地区等于美国那么我需要限制指定枚举的状态元素值否则状态可以只是固定长度的字符串当前 XSD 的示例始终将状态限制为枚举
GWT 和身份验证

保护 GWT Tomcat 应用程序执行身份验证和授权的最佳策略是什么有两种基本策略确保入口点安全确保远程服务的安全确保入口点安全最简单的方法是使用常规 Web 应用程序安全工具限制对 GWT 生成的 html js 文件的访问
仅在第一次使用 localStorage 加载网站时显示 DIV

我正在尝试完成这项工作但我遇到了一些问题就像标题所说我希望仅在第一次加载网站时显示 DIV 我知道如何使用 PHP 和 Cookie 但我想要使用 localStorage 函数这是我的代码 div div document rea
使用scrapy到json文件只得到一行输出

好吧我对一般编程很陌生并且具体使用 Scrapy 来实现此目的我编写了一个爬虫来从 pinterest com 上的 pin 获取数据问题是我以前从我正在抓取的页面上的所有引脚获取数据但现在我只获取第一个引脚的数据我认为问题出在

使用scrapy到json文件只得到一行输出

使用scrapy到json文件只得到一行输出 的相关文章

随机推荐

热门标签

使用scrapy到json文件只得到一行输出的相关文章