将 url 传递到从 RabbitMQ 消费的 scrapy 中的 parse 方法

2023-12-21

我正在使用 scrapy 来消费来自 RabbitMQ 的消息（url），但是当我使用yield 调用将我的 url 作为参数传递的解析方法时。该程序不在回调方法中。下面是我的以下代码蜘蛛

# -*- coding: utf-8 -*-
import scrapy
import pika
from scrapy import cmdline
import json

class MydeletespiderSpider(scrapy.Spider):
    name = 'Mydeletespider'
    allowed_domains = []
    start_urls = []

def callback(self,ch, method, properties, body):
    print(" [x] Received %r" % body)
    body=json.loads(body)
    url=body.get('url')
    yield scrapy.Request(url=url,callback=self.parse)

def start_requests(self):
    cre = pika.PlainCredentials('test', 'test')
    connection = pika.BlockingConnection(
        pika.ConnectionParameters(host='10.0.12.103', port=5672, credentials=cre, socket_timeout=60))
    channel = connection.channel()



    channel.basic_consume(self.callback,
                          queue='Deletespider_Batch_Test',
                          no_ack=True)


    print(' [*] Waiting for messages. To exit press CTRL+C')
    channel.start_consuming()

def parse(self, response):
    print response.url
    pass

cmdline.execute('scrapy crawl Mydeletespider'.split())

我的目标是将 url 响应传递给解析方法

要使用来自rabbitmq的url，你可以看看scrapy-rabbitmq https://github.com/roycehaynes/scrapy-rabbitmq包裹：

Scrapy-rabbitmq 是一个工具，可让您使用 Scrapy 框架通过 Scrapy 蜘蛛从 RabbitMQ 提供 URL 并对其进行排队。

要启用它，请在您的settings.py:

# Enables scheduling storing requests queue in rabbitmq.
SCHEDULER = "scrapy_rabbitmq.scheduler.Scheduler"
# Don't cleanup rabbitmq queues, allows to pause/resume crawls.
SCHEDULER_PERSIST = True
# Schedule requests using a priority queue. (default)
SCHEDULER_QUEUE_CLASS = 'scrapy_rabbitmq.queue.SpiderQueue'
# RabbitMQ Queue to use to store requests
RABBITMQ_QUEUE_NAME = 'scrapy_queue'
# Provide host and port to RabbitMQ daemon
RABBITMQ_CONNECTION_PARAMETERS = {'host': 'localhost', 'port': 6666}

# Bonus:
# Store scraped item in rabbitmq for post-processing.
# ITEM_PIPELINES = {
#    'scrapy_rabbitmq.pipelines.RabbitMQPipeline': 1
# }

在你的蜘蛛中：

from scrapy import Spider
from scrapy_rabbitmq.spiders import RabbitMQMixin

class RabbitSpider(RabbitMQMixin, Spider):
    name = 'rabbitspider'

    def parse(self, response):
        # mixin will take urls from rabbit queue by itself
        pass

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

webscraping

Scrapy

rabbitmq

yield

pika

将 url 传递到从 RabbitMQ 消费的 scrapy 中的 parse 方法的相关文章

如何在 Rselenium 中释放按键

我尝试使用以下命令成功按下控制键 rD lt rsDriver browser chrome chromever latest port 4445L chrome client lt rD client chrome client send
如何使用 scrapy 合约？

Scrapy 合约问题我开始研究 scrapy 框架也实现了一些蜘蛛提取但我无法为蜘蛛编写单元测试用例因为合同 scrapy提供的包文档没有正确的程序来编写测试用例请帮我解决这件事 Yes 蜘蛛合约 http doc scra
Beautiful Soup 中 find_all 方法的返回类型是什么？

from bs4 import BeautifulSoup SoupStrainer from urllib request import urlopen import pandas as pd import numpy as np imp
使用scrapy到json文件只得到一行输出

好吧我对一般编程很陌生并且具体使用 Scrapy 来实现此目的我编写了一个爬虫来从 pinterest com 上的 pin 获取数据问题是我以前从我正在抓取的页面上的所有引脚获取数据但现在我只获取第一个引脚的数据我认为问题出在
MassTransit 生成我想忽略的_skipped 队列

任何人都可以猜出问题是什么因为我不知道如何解决这个问题大众运输产生 skipped队列我不知道为什么它会生成这些队列它是在执行发布请求响应时生成的请求客户端是使用 MassTransit RequestClientExtensio
如何使用生成器遍历文件系统？

我正在尝试创建一个实用程序类来遍历目录中的所有文件包括子目录和子子目录中的文件我尝试使用发电机因为发电机很酷然而我遇到了困难 def grab files directory for name in os listdir dire
学院/大学数据 API [关闭]

Closed 此问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案我正在尝试构建一个应用程序允许用户查找特定大学并查看有关该大学的数据录取率 SAT 分数规模等但
Rvest 从 select 中提取选项值和文本

Rvest 选择选项我认为用可重现的示例来解释是最简单的网站 http www verema com vinos portada http www verema com vinos portada我想获取葡萄酒的类型 Tipos de
PHPQuery WebBrowser 插件 - 使用 cookies

我正在尝试使用 PHPQuery 的 WebBrowser 插件登录网站我能够成功登录但我不确定如何重用上一次调用中的 cookie 到下一次调用 client phpQuery browserGet https website com
从html中获取属性字符串值

我正在构建一个宏来使用从网站提取数据vba questions tagged vba 目前我可以使用元素语法轻松地从表内容中获取值例如obj getElementsByTagName td innerText 但是当某些单元格中有一些
网页抓取（R 语言？）

我想获取中间栏中的公司名称this http www consumercomplaints in bysubcategory mobile service providers page 1 html页面以蓝色粗体书写以及登记投诉者的位置
网页抓取 - 如何识别网页上的主要内容

给定一个新闻文章网页来自任何主要新闻来源例如时报或彭博社我想识别该页面上的主要文章内容并丢弃其他杂项元素例如广告菜单侧边栏用户评论在大多数主要新闻网站上都可以使用的通用方法是什么有哪些好的数据挖掘工具或库最好是基于Py
在 scrapy 中将基本 url 与结果 href 结合起来

下面是我的蜘蛛代码 class Blurb2Spider BaseSpider name blurb2 allowed domains www domain com def start requests self yield self ma
在同一进程中多次运行Scrapy

我有一个网址列表我想抓取其中的每一个请注意将此数组添加为start urls不是我正在寻找的行为我希望它在单独的爬网会话中一一运行我想在同一个进程中多次运行Scrapy 我想将 Scrapy 作为脚本运行如常见做法 https
基于多线程的 RabbitMQ 消费者

我们有一个 Windows 服务它监听单个 RabbitMQ 队列并处理消息我们希望扩展相同的 Windows 服务以便它可以监听 RabbitMQ 的多个队列并处理消息不确定使用多线程是否可以实现这一点因为每个线程都必须侦听阻
scrapy python 请求未定义

我在这里找到了答案 code for site in sites Link site xpath a href extract CompleteLink urlparse urljoin response url Link yield Re
Amazon EC2 实例上和本地的 RabbitMQ？

是否可以设置一个RabbitMQ服务器上的Amazon EC2 instance 并将我办公室的机器连接到此RabbitMQ服务器并向其发送接收消息我会被收取费用吗Amazon对于流入流出我的带宽消息RabbitMQ EC2 ins
访问 Scrapy 内的 django 模型

是否可以在 Scrapy 管道内访问我的 django 模型以便我可以将抓取的数据直接保存到我的模型中我见过this https scrapy readthedocs org en latest topics djangoitem ht
Python BS4 Scraper 仅返回每个页面的前 9 个结果

我让这段代码按预期工作只是它并没有完全按预期工作一切似乎都很顺利直到我检查了我的 csv 输出文件并注意到我每页只得到前 9 个结果每页应该有 40 个结果因此我得到的结果少于预期的 25 有什么想法吗 import reques
错误：尝试使用 scrappy 登录时出现 raise ValueError("No element found in %s" % response)

问题描述我想从我大学的bbs上抓取一些信息这是地址 http bbs byr cn http bbs byr cn下面是我的蜘蛛的代码 from lxml import etree import scrapy try from scra

随机推荐

没有 for..in..do 的扩展计算表达式

我所说的扩展计算表达式是指具有通过定义的自定义关键字的计算表达式定制操作 http msdn microsoft com en us library hh289709 aspx属性当阅读有关扩展计算表达式 http files meetu
错误：无法使用 bind_rows 组合和

我正在尝试读取多个 csv 文件并将它们合并为一个所以我原来有 d lt list files path data full names TRUE pattern csv gt lapply read csv gt bind rows 我
如何在foreach循环中每5次迭代后定义html标签

我只是想知道如何定义 HTML 标签 br 在 foreach 循环中每 5 次迭代之后这是我的代码 div class item main div class item a href title div class overlaid d
对 r 中的索引对对数组进行子集化

尽管我进行了搜索但我找不到我的问题的直接答案假设我有一个数组 vector1 lt c 5 9 3 vector2 lt c 10 11 12 13 14 15 result lt array c vector1 vector2 dim
在 Sublime Text 中将多行文本列组合在一起

假设我有 2 列每列有 10 亿行它们是这样开始的 Column 1 I said She said it said Column 2 you re amazing he s awesome enough already 我尝试突出显示
OpenAPI 缺少 FastAPI 应用程序中某些 Pydantic 模型的架构

我正在构建一个 FastAPI 应用程序其中有很多 Pydantic 模型尽管应用程序工作得很好但正如预期的那样 OpenAPI Swagger UI 文档没有显示所有这些模型下的架构Schemas部分这是pydantic的内容sc
Spring Webflux 禁用登录

让我简短地描述一下我现在面临的问题我已经为 webflux 应用程序配置了 spring security 当我尝试访问不需要身份验证的路由时我收到登录表单提示路线是 swagger ui 它应该在没有任何登录表单或其他内容的情况下打
在 TensorFlow 中运行具有不同批量大小的已保存模型的最佳方法是什么？

下雨了TensorFlow 存储库中的 Cifar10 示例模型 https github com tensorflow tensorflow tree master tensorflow models image cifar10使用bat
如何在泛型集合上创建扩展方法

我有一个包含 FrameworkElements 的列表我想创建一个名为 MoveToTop 的扩展方法这一切要做的就是接受属于该列表一部分的项目并将其移动到列表的开头我知道这可以在不使用扩展方法的情况下完成但我希望将其作为扩展方法
从不均匀分布的集合中删除项目

我有一个网站用户可以提交问题每天零个一个或多个对其进行投票并每天回答一个问题更多详细信息here https stackoverflow com questions 8600909 distribution among users
获取静态初始化块以在 java 中运行而不加载类

我有一些课程如下所示 public class TrueFalseQuestion implements Question static QuestionFactory registerType TrueFalse Question pu
我的航站楼里有啤酒：怎么办？

Brew puts a picture of a tiny beer in my terminal 它是如何做到这一点的我什至不知道但我需要知道因为我未来的所有命令行应用程序也必须在其输出中放入小图片它可能只是一个 unicode
为脚本标签指定 ID

我遇到了一个场景script元素一个id属性可以轻松解决问题然而在阅读了有关script元素在w3学校 http www w3schools com TAGS tag script asp and 怪异模式 http www quirk
swipeRefresh 运行时替换 Fragment 无法正常工作

我有片段 A 其中包括 SwipeRefresh 和 RecycleView 当用户单击 RecycleView 中的某个项目时我替换一个新的片段即 B mAdapter setOnItemClickListener new MyAda
Ruby App MVC 框架（非 Web）

有人听说过用于应用程序脚本的 Ruby MVC 框架吗当 Rails 出现时它是一个革命性的工具因为它将 MVC 带给了广大 Web 开发人员并第一次迫使他们使用设计模式和约定我正在寻找类似的东西但用于编写从 cron 或用户
Java 中的数组列表

在 Java 中创建数组列表的语法是什么我已经尝试过以下方法 List
取消 [self PerformSelector:... withObject:nil afterDelay:20];

我使用下面的代码在 viewDidLoad 中调用方法 sr 如何在该方法 sr 调用之前取消它 self performSelector selector sr withObject nil afterDelay 20 NSObject
使用 JQuery 动态重复和删除表单元素

我有一个带有附加添加和删除按钮的表单单击这些按钮后相同的表单行将被重复或完全删除 div class container div
如何在折线图或散点图中添加 3 个以上系列？

当我尝试在折线图或散点图中添加 3 个以上系列时出现异常在谷歌浏览器中未捕获的类型错误对象 object Object 的属性未定义不是函数在火狐中 Ext chart Shape type 不是函数停止此错误 attr E
将 url 传递到从 RabbitMQ 消费的 scrapy 中的 parse 方法

我正在使用 scrapy 来消费来自 RabbitMQ 的消息 url 但是当我使用yield 调用将我的 url 作为参数传递的解析方法时该程序不在回调方法中下面是我的以下代码蜘蛛 coding utf 8 import scrapy

将 url 传递到从 RabbitMQ 消费的 scrapy 中的 parse 方法

将 url 传递到从 RabbitMQ 消费的 scrapy 中的 parse 方法 的相关文章

随机推荐

热门标签

将 url 传递到从 RabbitMQ 消费的 scrapy 中的 parse 方法的相关文章