Scrapy中如何控制yield的顺序

2024-04-16

帮助！阅读下面的scrapy代码和爬虫的结果。我想从中抓取一些数据http://china.fathom.info/data/data.json http://china.fathom.info/data/data.json，并且仅Scrapy被允许。但我不知道如何控制yield的顺序。我期待着处理所有解析成员循环中请求，然后返回组项，但似乎yield item总是在yield请求之前执行。

start_urls = [
    "http://china.fathom.info/data/data.json"
]

def parse(self, response):
    groups = json.loads(response.body)['group_members']
    for i in groups:
        group_item = GroupItem()
        group_item['name'] = groups[i]['name']
        group_item['chinese'] = groups[i]['chinese']
        group_item['members'] = []

        members = groups[i]['members']
        for member in members:
            yield Request(self.person_url % member['id'], meta={'group_item': group_item, 'member': member},
                          callback=self.parse_member, priority=100)
        yield group_item

def parse_member(self, response):
    group_item = response.meta['group_item']
    member = response.meta['member']
    person = json.loads(response.body)
    ego = person['ego']
    group_item['members'].append({
        'id': ego['id'],
        'name': ego['name'],
        'chinese': ego['chinese'],
        'role': member['role']
    })

MongoDB 上的数据 https://i.stack.imgur.com/woLIT.jpg

你需要在最后的回调中产生该项目，parse并没有停下来parse_member来完成，所以group_item in parse没有改变，而parse_member工作中。

不要屈服group_item of parse，仅此一项parse_member，因为您已经复制了上一项meta并且您已经恢复了它parse_member with response.meta['group_item']

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Scrapy中如何控制yield的顺序的相关文章

Django 中的 Rpy2 错误 - 未为“”类型的对象定义转换“py2rpy”

我以前从未使用过 R 并且正在尝试使用 rpy2 从 python 调用 R 函数它可以在独立的 python 终端上运行但不能在 Django 中运行但rpy2似乎无法将python字符串转换为r对象我正在使用同事提供的自定义库
使用 OpenCV 和/或 Numpy 对两个图像进行 Alpha 混合 [重复]

这个问题在这里已经有答案了我想将一个填充纯色的半透明矩形添加到已加载的半透明 PNG 中这是我正在使用的输入图像示例该图像加载了标准cv2 IMREAD UNCHANGED标志以便完美保留 alpha 通道该输入图像存储在imag
如何在 Google App Engine 的 Python 中获取 StringProperty 的值？

如何获取 nbd Model 的值我想返回由多个字段组成的描述但我无法让它工作这是我的班级代码 class User ndb Model name ndb StringProperty email ndb StringProperty
Tipfy：如何在模板中显示blob？

鉴于在 gae 上使用tipfy http www tipfy org python 以下模型 greeting avatar db Blob avatar 显示 blob 此处为图像的模板标签是什么在这种情况下斑点是一个图像这很棒
Paramiko SSHException 通道已关闭

我一直在使用 Paramiko 在 Linux Windows 机器上发送命令它可以很好地在 Ubuntu 机器上远程执行测试但是它不适用于 Windows 7 主机以下是我收到的错误 def unit for event self
将一维数组转换为下三角矩阵

我想将一维数组转换为较低的零对角矩阵同时保留所有数字我知道numpy tril函数但它用零替换了一些元素我需要扩展矩阵以包含所有原始数字例如 10 20 40 46 33 14 12 46 52 30 59 18 11 22 30
按多个键分组并对字典列表的值进行汇总/平均值

在Python中按多个键进行分组并对字典列表进行汇总平均值的最Pythonic方法是什么假设我有一个字典列表如下所示 input dept 001 sku foo transId uniqueId1 qty 100 dept 001
返回上个月的日期时间对象

如果 timedelta 在它的构造函数中有一个月份参数就好了那么最简单的方法是什么 EDIT 正如下面指出的那样我并没有认真考虑这一点我真正想要的是上个月的任何一天因为最终我只会获取年份和月份因此给定一个日期时间对象返回的最
在 Linux 上的 Python 中使用受密码保护的 Excel 工作表

问题很简单我每周都会收到一堆受密码保护的 Excel 文件我必须解析它们并使用 Python 将某些部分写入新文件我得到了文件的密码当在 Windows 上完成此操作时处理起来很简单我只需导入 win32com 并使用 clie
在 iPython/pandas 中绘制多条线会生成多个图

我试图了解 matplotlib 的状态机模型但在尝试在单个图上绘制多条线时遇到错误据我了解以下代码应该生成包含两行的单个图 import pandas as pd import pandas io data as web aapl
根据第三个变量更改散点图中的标记样式

我正在处理多列字典我想绘制两列然后根据第三列和第四列更改标记的颜色和样式我很难改变 pylab 散点图中的标记样式我的方法适用于颜色不幸的是不适用于标记样式 x 1 2 3 4 5 6 y 1 3 4 5 6 7 m k l l
如何使用 django-pyodbc (ubuntu 16.04) 配置数据库设置 Django-MSSQL？

我是 Django 新手目前正在尝试使用另一个数据库来保存我的模型即MS SQL 我的数据库部署在docker容器中 903876e64b67 microsoft mssql server linux bin sh c opt mssq
更换壳牌管道[重复]

这个问题在这里已经有答案了在 subprocess 模块的 Python 2 7 文档中我找到了以下片段 p1 Popen dmesg stdout PIPE p2 Popen grep hda stdin p1 stdout stdo
在 scipy 中创建新的发行版

我试图根据我拥有的一些数据创建一个分布然后从该分布中随机抽取这是我所拥有的 from scipy import stats import numpy def getDistribution data kernel stats gauss
在 Python 中访问 argparse 的参数值

我正在尝试为我的程序设置一些简单的标志参数但无法弄清楚如何访问它们我有 argparser parser argparse ArgumentParser description Simple PostScript Interpreter
更新 SQLAlchemy 中的特定行

我将 SQLAlchemy 与 python 一起使用我想更新表中等于此查询的特定行 UPDATE User SET name user WHERE id 3 我通过 sql alchemy 编写了这段代码但它不起作用 session
Pip 无法在 Windows 上安装 Twisted

我正在尝试在 Windows 8 计算机上安装 Twisted 在 Twisted 官方网站上只有一个 Windows 版的 Wheel 文件 https twistedmatrix com trac wiki Downloads htt
Streamlabs API 405 响应代码

我正在尝试使用Streamlabs API https dev streamlabs com Streamlabs API 使用 Oauth2 来创建应用程序因此首先我将使用我的应用程序的用户发送到一个授权链接其中包含我的应用程序的客
在父类中访问子类变量

我有一个父类和一个继承的子类我想知道如何访问我的父类中的子类变量我尝试了这个但失败了 class Parent object def init self print x class Child Parent x 1 x Child Er
Java/Python 中的快速 IPC/Socket 通信

我的应用程序中需要两个进程 Java 和 Python 进行通信我注意到套接字通信占用了 93 的运行时间为什么通讯这么慢我应该寻找套接字通信的替代方案还是可以使其更快更新我发现了一个简单的修复方法由于某些未知原因缓冲输出流似

随机推荐

Rails：语法错误，意外的keyword_ensure，期望$end

我正在创建一个非常基本的 Rails 应用程序学习教程但无法理解为什么会出现此错误我已尝试排除故障但无济于事 My code ul class nav pull right li li li li li li ul
如何将操作栏与 Xamarin 和 MvvmCross 一起使用

我看到 Xamarin 最近作为组件发布http components xamarin com view xamandroidsupportv7appcompat http components xamarin com view xaman
如何更新 C# 和 SQL Server 中的值？ [关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案这是我的程序应该更新包含 3 列的表中的分数 id nickname scor Otherform id1 is the id需要更新的
Docker for ARM64 (Raspberry Pi 4) 上的 Android SDK 用于构建 APK

我正在尝试创建一个ARM64 Docker 镜像它能够构建我的 React Native 应用程序的 apk 文件背景为了练习目的我使用 5 个 Raspberry Pi 4 板构建了一个 Kubernetes 集群一切工作正常 J
按数组类型查询 - MongoDB

我必须按类型查询我的 mongoDB 集合假设我有这两个文件hello收藏 id ObjectId 56684ee0f597654b99d0d636 name Scrooge surname McDuck address road Mon
如何在 Python 中发送包含一些非 ASCII 字符的电子邮件？

我正在使用 Python 3 7 并尝试使用 smtplib 发送电子邮件只要消息不包含任何土耳其字符例如我的脚本就可以完美运行到目前为止我发现的唯一可行的解决方案是使用 string string encode ascii ig
设置 UIPopOverController 大小

我有一个view里面有一堆按钮UIScrollView 当用户按下按钮时我希望显示一个 UIPopOverController 指向所选按钮它有点工作但是弹出窗口的大小错误并且指向视图中的随机点这是我的代码 void detail
如何将 Maven 存储库 jar 添加到 Eclipse 构建路径？

从 Eclipse 中我可以在 Maven 存储库视图中看到所有必需的 jar 但我有大约 100 个缺少 jar 文件的错误所以我设置了 M2 REPO 环境变量我已经从命令行运行了 mvn eclipse eclipse 命令当
WINAPI 带有自定义边框的编辑控件

在纯 WinAPI 无 MFC 中实现编辑控件的自定义圆形边框的正确方法是什么我需要像这样的边框编辑我应该子类化编辑控件并在 WM NCPAINT 或类似的东西中进行自定义绘画吗我想你有两个选择正如你所说你可以子类化并覆盖WM N
从 Django 调用 Scrapy Spider

我有一个项目在同一工作区中包含 django 和 scrapy 文件夹 my project django project django project settings py app1 app2 manage py scrapy pro
循环日期范围

在Python3中我可以像这样循环遍历一系列日期 import datetime dt0 datetime datetime 2017 1 1 0 0 0 dt1 datetime datetime 2017 1 5 0 0 0 dt d
Spring @Async 限制线程数

我的问题与这个非常相似 Async 阻止一个线程继续执行直到其他线程完成 https stackoverflow com questions 4324212 async prevent a thread to continue until
Discord 机器人添加对消息的反应discord.py（无自定义表情符号）

我一直在尝试使用discord py创建一个机器人在阅读后使用discord py添加对消息的反应this https stackoverflow com questions 48982061 how do you have a bot
xamarin.forms 中的导航如何工作？

由于我在 android 中的应用程序中使用 xamarin forms 因此我必须从一个页面导航到另一个页面我的问题是从一个页面导航到另一页面是否会将其添加到导航堆栈中例如如果我的应用程序有导航例如第1页 gt 第2页 gt 第
if (static_cast(x)) 与 if (x)

我有一位同事经常在条件语句中对 bool 进行显式强制转换如下所示 SomeType ptr some value if static cast
如何在aspx页面中的javascript中读取web.config中的值

我在 aspx 文件中有一段 javascript 代码在我的脚本函数中我尝试从 web config 读取 SiteRootURL 值如下所示 var k alert k 这是行不通的当我添加上面的代码时我的 aspx 页面顶部
.NET 3.5 处置注册表项

我有以下代码 RegistryKey installKey Registry LocalMachine OpenSubKey installKey 我正在我的代码上运行静态分析工具它给了我一个缺陷说我从方法中返回而没有处理安装密钥我知
如何在Scrapy中迭代div？

这可能是一个非常微不足道的问题但我是 Scrapy 的新手我试图找到问题的解决方案但我只是看不出这段代码有什么问题我的目标是废弃给定网站上的所有歌剧节目每个节目的数据都位于一个具有 row fluid row performanc
JSON 到带有关系的核心数据

下列的Ray Wenderlich 的新教程 http www raywenderlich com 15916 how to synchronize core data with a web service part 1我能够获取 JSON
Scrapy中如何控制yield的顺序

帮助阅读下面的scrapy代码和爬虫的结果我想从中抓取一些数据http china fathom info data data json http china fathom info data data json 并且仅Scrapy被允

Scrapy中如何控制yield的顺序

Scrapy中如何控制yield的顺序 的相关文章

随机推荐

热门标签

Scrapy中如何控制yield的顺序的相关文章