scrapy json将所有项目输出在一行上

2024-02-25

我试图让我的输出看起来像下面的 json 格式。

{"loser": "De Schepper K." ,"winner": "Herbert P.", "url":
"https://www.sofascore.com/tennis/2018-02-07"}

但我目前正在为每个失败者项目和获胜者项目获取单独的行。我希望获胜者和失败者都与网址位于同一行。

{"loser": "De Schepper K.", "url": 
"https://www.sofascore.com/tennis/2018-02-07"}
{"winner": "Herbert P.", "url": 
"https://www.sofascore.com/tennis/2018-02-07"}
{"loser": "Sugita Y.", "url": 
 "https://www.sofascore.com/tennis/2018-02-07"}

我不确定是否是我的选择器导致了这种行为，但我想知道如何自定义管道，以便失败者、获胜者和日期都在同一 json 行上

我以前从未提取过 json 格式，所以它对我来说是新的。如何使用自定义管道指定每行上的 json 键和值？

我还尝试使用 csv 项目导出器来执行此操作，并且也出现了奇怪的行为。参考Scrapy 输出每列显示空行 https://stackoverflow.com/questions/48797819/scrapy-output-is-showing-empty-rows-per-column

这是我的蜘蛛.py

import scrapy
from scrapy_splash import SplashRequest
from scrapejs.items import SofascoreItemLoader
from scrapy import Spider

import json
from scrapy.http import Request, FormRequest

    class MySpider(scrapy.Spider):
    name = "jsscraper"

    start_urls = ["https://www.sofascore.com/tennis/2018-02-07"]


    def start_requests(self):
        for url in self.start_urls:
            yield SplashRequest(url=url,
                            callback=self.parse,
                            endpoint='render.html',
                            args={'wait': 1.5})



    def parse(self, response):
            for row in response.css('.event-team'):
                    il = SofascoreItemLoader(selector=row)
                    il.add_css('winner' , '.event-team:nth-
                      child(2)::text')
                    il.add_css('loser' , '.event-team:nth-
                    child(1)::text')
                    il.add_value('url', response.url)

                    yield il.load_item()

items.py

import scrapy

from scrapy.loader import ItemLoader
from scrapy.loader.processors import TakeFirst, MapCompose
from operator import methodcaller
from scrapy import Spider, Request, Selector

class SofascoreItem(scrapy.Item):
    loser = scrapy.Field()
    winner = scrapy.Field()
    url = scrapy.Field()



class SofascoreItemLoader(ItemLoader):
    default_item_class = SofascoreItem
    default_input_processor = MapCompose(methodcaller('strip'))
    default_output_processor = TakeFirst()

管道.py

import json
import codecs
from collections import OrderedDict

class JsonPipeline(object):

    def __init__(self):
        self.file = codecs.open('data_utf8.json' , 'w' , 
        encoding='utf-8')

    def process_item(self , item , spider):
        line = json.dumps(OrderedDict(item) , ensure_ascii=False , 
        sort_keys=False) + "\n"
        self.file.write(line)
        return item

    def close_spider(self , spider):
        self.file.close()

这里的问题是你正在循环.event-team元素。
这些元素中的一个只能是赢家或输家，因此您会为每个元素获得一个项目。

你应该做的是循环包含两个 (.list-event似乎是一个不错的候选人），并从中提取赢家和输家。

这样，每个事件就有一个循环，因此每个事件只有一个项目。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

json

webscraping

Scrapy

scrapy json将所有项目输出在一行上的相关文章

python future 和元组解包

实现像使用 future 进行元组解包这样的事情的优雅惯用的方法是什么我有这样的代码 a b c f x y g a b z h y c 我想将其转换为使用期货理想情况下我想写一些类似的东西 a b c ex submit f x y
如何正确地将 MIDI 刻度转换为毫秒？

我正在尝试将 MIDI 刻度增量时间转换为毫秒并且已经找到了一些有用的资源 MIDI Delta 时间刻度到秒 http www lastrayofhope co uk 2009 12 23 midi delta time ticks
Python逻辑运算符优先级[重复]

这个问题在这里已经有答案了哪个运算符优先4 gt 5 or 3 lt 4 and 9 gt 8 这会被评估为真还是假我知道该声明3 gt 4 or 2 lt 3 and 9 gt 10 显然应该评估为 false 但我不太确定 pyth
如何使用 Plotly 中的直方图将所有离群值分入一个分箱？

所以问题是我可以在 Plotly 中绘制直方图其中所有大于某个阈值的值都将被分组到一个箱中吗所需的输出但使用标准情节Histogram类我只能得到这个输出 import pandas as pd from plotly import
if 语句未命中中的 continue 断点

在下面的代码中两者a and b是生成器函数的输出并且可以评估为None或者有一个值 def testBehaviour self a None b 5 while True if not a or not b continue pri
忽略 Mercurial hook 中的某些 Mercurial 命令

我有一个像这样的善变钩子 hooks pretxncommit myhook python path to file myhook 代码如下所示 def myhook ui repo kwargs do some stuff 但在我的例子中
在Python中调整图像大小

我有一张尺寸为 288 352 的图像我想将其大小调整为 160 240 我尝试了以下代码 im imread abc png img im resize 160 240 Image ANTIALIAS 但它给出了一个错误TypeErro
jq中如何分组？

这是 json 文档 name bucket1 clusterName cluster1 name bucket2 clusterName cluster1 name bucket3 clusterName cluster2 name bu
TensorFlow的./configure在哪里以及如何启用GPU支持？

在我的 Ubuntu 上安装 TensorFlow 时我想将 GPU 与 CUDA 结合使用但我却停在了这一步官方教程 http www tensorflow org get started os setup md 这到底是哪里 con
在flatpak项目中使用scrapy脚本

我正在构建一个 flatpak 构建的项目我有一个按钮当单击它时我希望它运行 scrapy 脚本来抓取数据窗口用户界面
使用 json_encode() 函数在 PHP 数组中生成 JSON 键值对

我正在尝试以特定语法获取 JSON 输出这是我的代码 ss array 1 jpg 2 jpg dates array eu gt 59 99 us gt 39 99 array1 array name gt game1 publishe
从 python 发起 SSH 隧道时出现问题

目标是在卫星服务器和集中式注册数据库之间建立 n 个 ssh 隧道我已经在我的服务器之间设置了公钥身份验证因此它们只需直接登录而无需密码提示怎么办我试过帕拉米科它看起来不错但仅仅建立一个基本的隧道就变得相当复杂尽管代码示例将受
使用鼻子获取设置中当前测试的名称

我目前正在使用鼻子编写一些功能测试我正在测试的库操作目录结构为了获得可重现的结果我存储了一个测试目录结构的模板并在执行测试之前创建该模板的副本我在测试中执行此操作 setup功能这确保了我在测试开始时始终具有明确定义的状态现在
按元组分隔符拆分列表

我有清单 print L I WW am XX newbie YY ZZ You WW are XX cool YY ZZ 我想用分隔符将列表拆分为子列表 ZZ print new L I WW am XX newbie YY ZZ You
将 2D NumPy 数组按元素相乘并求和

我想知道是否有一种更快的方法专用 NumPy 函数来执行 2D NumPy 数组的元素乘法然后对所有元素求和我目前使用np sum np multiply A B 其中 A B 是相同维度的 NumPy 数组m x n 您可以使用np
在 Pandas 中使用正则表达式的多种模式

我是Python编程的初学者我正在探索正则表达式我正在尝试从描述列中提取一个单词数据库名称我无法给出多个正则表达式模式请参阅下面的描述和代码描述 Summary AD1 Low free DATA space in data
python Soap zeep模块获取结果

我从 SOAP API 得到如下结果 client zeep Client wsdl self wsdl transport transport auth header lb E authenticate self login res cl
Tkinter - 浮动窗口 - 调整大小

灵感来自this https stackoverflow com a 22424245 13629335问题我想为我的根窗口编写自己的调整大小函数但我刚刚注意到我的代码显示了一些性能问题如果你快速调整它的大小你会发现窗口没有像我希望
您可以将操作直接应用于map/reduce/filter 中的参数吗？

map and filter通常可以与列表理解互换但是reduce并不那么容易被交换map and filter 此外在某些情况下我仍然更喜欢函数语法但是当您需要对参数本身进行操作时我发现自己正在经历语法体操最终必须编写整个函数
字典和数组作为类变量与实例变量

这是赚取积分的简单方法请解释以下内容 class C a b 0 c def init self self x def d self k v self x k v self a k v self b v self c append v d

随机推荐

在 Coq 中证明可逆列表是回文

这是我对回文的归纳定义 Inductive pal X Type list X gt Prop pal0 pal pal1 forall x X pal x pal2 forall x X l list X pal l gt pal x l
默默地从Python字典中删除键[重复]

这个问题在这里已经有答案了我有一个 python 字典我想默默地删除其中一个None and 我的字典中的键所以我想出了这样的东西 try del my dict None except KeyError pass try del my
无法检索运营商名称

使用iPhone6 Xcode 8 1 运行iOS 10 1 1 执行以下命令我不断收到 Swift 代码无法检索运营商名称错误消息出现在我的第一个消息之前ViewController甚至负载我搜索了类似但不相同的解决方案Car
web.xml 过滤器映射不转发到 struts

我正在尝试做一些微不足道的事情但看不到我错过了什么我有以下 web xml
获取 RibbonControlsLibrary.Aero2 的 FileNotFoundException

我最近在尝试运行使用 WPF 功能区的项目时开始收到此错误它之前一直在这台机器上运行但由于某种原因现在不能运行图书馆来自here http www microsoft com en us download details aspx i
Python网络抓取：睡眠和请求之间的区别（页面，超时= x）

当循环抓取多个网站时我注意到之间的速度存在相当大的差异 sleep 10 response requests get url and response requests get url timeout 10 那是 timeout速度要快得
带有两个提交按钮的 Django 表单。。。一个需要字段，一个不需要

我认为这应该是一个相当简单的问题我有一个 Django 表单其中有两个不同的提交按钮第一个提交按钮仅用于将在表单字段中输入的任何值保存到数据库以便用户可以根据需要返回并稍后完成表单我希望单击第一个提交按钮时不需要表单字段但是当
Windows 7，64 位，DLL 问题

我的可执行文件有问题我在 Windows 7 64 位开发盒上运行这个 C 32 位可执行文件该开发盒还包含所有这些 Microsoft 应用程序 Visual Studio 2008 2010 TFS SDK Microsoft Of
当我添加服务引用时，为什么 VS2010 RC 不使用我现有的类型？

我在 VS2010 RC 中获取服务引用以使用现有程序集时遇到了很大的问题即使我有一个类库其中包含在服务项目和使用项目这是一个类库之间共享的所有数据协定用 DataContract 标记的类和用 DataMember 标记的属性
Asan：asan 库加载问题

在我们的构建系统中我们最近将 ASAN 工具添加 fsanitize address 集成到 CFLAGS 中并且同时链接创建库 so 文件注意我们使用 GCC 6 3 编译器我们能够成功构建我们的代码但在运行时失败并出现以
希伯来语 Google 地图 api

我正在为以色列开发谷歌地图应用程序但我不知道使用希伯来语名称地址进行地理编码未找到地址位置我真的需要帮助我应该做什么才能得到它与curl相关的问题仍然存在使用浏览器我得到状态为正常的响应但是使用带有错误请求的curl goo
如何为 buildSrc 和应用程序模块定义 Kotlin 版本？

我正在使用一个buildSrc多模块 Kotlin 项目中的模块管理依赖项定义和版本 https handstandsam com 2018 02 11 kotlin buildsrc for better gradle dependenc
导出邮递员中的所有集合

我有多个收藏品的邮递员我可以一项一项地导出但我没有找到任何按原样导出全部的选项在进入团队模式时也是如此是否可以选择将我的所有收藏导出给其他用户您可以将所有 API 集合环境全局和标头预设导出到单个数据转储 zip 文件要打开
错误：获取远程存储库“origin”时出错返回状态代码 143

我有詹金斯版本 2 32 1 安装在我的 iMac 上我已经为我的项目设置了 git 存储库并提供了我的凭据注意存储库是私有的当从 Windows 克隆存储库时它工作正常但是当从 iMac 克隆相同的存储库时它会给出以下日志
SQL Server 中的 Yield 返回值

我正在 SQL Server DWH 中写下一个视图用例伪代码是 Do some calculation and generate Temp1 contains other selects Select statement 1 SELEC
将对象转换为 IEnumerable
？
我怎样才能投射object to IEnumerable 我知道该对象实现了IEnumerable但我不知道它是什么类型它可以是一个数组一个List

从标签分支

我在这里寻求意见以下可以被认为是 SVN 特定的问题或更一般的版本控制问题如果项目的源要在与版本相对应的点进行分支也许是为了维护工作那么最好是 a 从标签分支或者 b 从标签复制的节点例如主干上分支这两种方法的优缺点是什么

PHP：strtotime返回“boolean”类型的“nothing”

我有变量 EDate 我使用 strtotime 函数将此变量具有不同的值结果如下 EDate 10 21 2013 echo strtotime EDate the result nothing and the type is bool

在 JAVASCRIPT 模块模式中定义私有字段成员和继承

我可以使用下面的代码在模块模式中定义私有成员字段 var myClass function var private field1 private field 2 var private func1 function var myObj gl

scrapy json将所有项目输出在一行上

我试图让我的输出看起来像下面的 json 格式 loser De Schepper K winner Herbert P url https www sofascore com tennis 2018 02 07 但我目前正在为每个失败者项
热门标签

断点失效解决方案

配置国内源

HttpWeb

镜像制作和启动

代理实现爬取代理

docBase

appBase

项目整体功能和设计

进销存小程序

vprocRun

教培官网上线

SPARC

方便好用的截图工具

SylixOS

许可证协议

RealEvo

通信的虚拟设备工具集

VDT

文档模板

重点项目质量保证措施

高效工作学习方法四则

数据超出类型范围输出

0x0102

拉起抖音

抓包某些

正确设置了
Powered by Hwhale

scrapy json将所有项目输出在一行上

scrapy json将所有项目输出在一行上 的相关文章

随机推荐

热门标签

scrapy json将所有项目输出在一行上的相关文章