使用scrapy提取XHR请求？

2024-01-31

我正在尝试抓取使用 javascript 生成的社交点赞计数。如果我绝对引用 XHR url，我就能够抓取所需的数据。但是我尝试抓取的网站动态生成这些 XMLHttpRequest，其中包含我不知道如何提取的查询字符串参数。

例如，您可以看到使用每个页面特有的 m、p、i 和 g 参数来构造请求 url。

这是组装好的网址：

..返回此 JSON：

{"twitter":13325,"facebook":23481,"googleplusone":964,"disqus":272}

使用以下脚本，我可以从我刚才提到的请求 URL 中提取所需的数据（在本例中为 Twitter 计数），但仅限于该特定页面。

import scrapy

from aeon.items import AeonItem
import json
from scrapy.http.request import Request

class AeonSpider(scrapy.Spider):
    name = "aeon"
    allowed_domains = ["aeon.co"]
    start_urls = [
        "http://aeon.co/magazine/technology"
]

def parse(self, response):
    items = []
    for sel in response.xpath('//*[@id="latestPosts"]/div/div/div'):
        item = AeonItem()
        item['title'] = sel.xpath('./a/p[1]/text()').extract()
        item['primary_url'] = sel.xpath('./a/@href').extract() 
        item['word_count'] = sel.xpath('./a/div/span[2]/text()').extract()      

        for each in item['primary_url']:
            yield Request(http://aeon.co/magazine/social/social.php?url=http://aeon.co/magazine/technology/the-elon-musk-interview-on-mars/&m=1385983411&p=1412056831&i=25829&g=http://aeon.co/magazine/?p=25829, callback=self.parse_XHR_data,meta={'item':item})                   


def XHR_data(self, response):
    jsonresponse = json.loads(response.body_as_unicode())
    item = response.meta['item']
    item["tw_count"] = jsonresponse["twitter"]  
    yield item

所以我的问题是，如何提取 m、p、i 和 g url 查询参数，以便我可以动态模拟请求 url？（而不是如上所示绝对引用它）

您可以通过以下方式提取您的网址：

import urlparse
url = 'http://aeon.co/magazine/social/social.php?url=http://aeon.co/magazine/technology/the-elon-musk-interview-on-mars/&m=1385983411&p=1412056831&i=25829&g=http://aeon.co/magazine/?p=25829'

parsed_url = urlparse.parse_qs(urlparse.urlparse(url).query)

for p in parsed_url:
    print p + '=' + parsed_url[p][0]

和输出：

>> python test.py
url=http://aeon.co/magazine/technology/the-elon-musk-interview-on-mars/
p=1412056831
m=1385983411
i=25829
g=http://aeon.co/magazine/?p=25829

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

XMLHttpRequest

webscraping

Scrapy

使用scrapy提取XHR请求？的相关文章

使用 BeautifulSoup 在 python 中抓取多个页面

我已经设法编写代码来从第一页中抓取数据现在我不得不在这段代码中编写一个循环来抓取接下来的 n 页下面是代码如果有人可以指导帮助我编写从剩余页面中抓取数据的代码我将不胜感激 Thanks from bs4 import Beauti
使用scrapy到json文件只得到一行输出

好吧我对一般编程很陌生并且具体使用 Scrapy 来实现此目的我编写了一个爬虫来从 pinterest com 上的 pin 获取数据问题是我以前从我正在抓取的页面上的所有引脚获取数据但现在我只获取第一个引脚的数据我认为问题出在
scrapy中如何处理302重定向

我在抓取网站时收到来自服务器的 302 响应 2014 04 01 21 31 51 0200 ahrefs h DEBUG Redirecting 302 to
在单词后获取文本——R Webscraping

几周前这里有人帮助我极大地获得了名人数据库中所有链接的列表我能够运行此代码并获得以下输出 library purrr library rvest url base lt https www nndb com lists 494 0000
VBA - 从 Internet Explorer 的框架通知栏中选择另存为

我正在尝试通过以下方式下载另存为的文件框架通知栏的互联网浏览器然而经过大量搜索后我只找到了点击解决方案save在框架通知栏上到目前为止我一直在尝试另存为示例站点上的文件 http www tvsubtitles net subti
R 在 readHTMLTable 调用维基百科时崩溃

尝试抓取维基百科页面类似的事情我之前已经做过很多次了 library XML myURL lt http en wikipedia org wiki List of US Open MenUs Singles champions y lt
设置restrict_xpaths设置后出现UnicodeEncodeError

我是 python 和 scrapy 的新手将restrict xpaths 设置设置为 table class lista 后我收到了以下回溯奇怪的是通过使用其他 xpath 规则爬虫可以正常工作 Traceback most
BaseSpider 和 CrawlSpider 的区别

我一直在尝试理解在网页抓取中使用 BaseSpider 和 CrawlSpider 的概念我已阅读docs http doc scrapy org en latest topics spiders html但没有提及BaseSpider
Scrapy：在调用之间保存cookie

有没有办法在 scrapy 爬虫的调用之间保留 cookie 目的网站需要登录然后通过 cookie 维持会话我宁愿重复使用会话也不愿每次都重新登录请参阅有关 cookie 的文档常见问题解答入口 http doc scrapy
使用 BeautifulSoup 抓取评论标签内的表格

我正在尝试使用 BeautifulSoup 从以下网页中抓取表格 https www pro football reference com boxscores 201702050atl htm https www pro football
使用XMLHttpRequest自动网页刷新内存泄漏

问候我一直在为一些使用 8 位微控制器的硬件开发网络界面该网页使用 HTML javascript JSON 和 XHR XMLHttpRequest 进行通信我想做的是创建一个页面使用 setInterval 使用控制器中的新值每
访问 Scrapy 内的 django 模型

是否可以在 Scrapy 管道内访问我的 django 模型以便我可以将抓取的数据直接保存到我的模型中我见过this https scrapy readthedocs org en latest topics djangoitem ht
Scrapy FakeUserAgentError：获取浏览器时发生错误

我使用 Scrapy FakeUserAgent 并在我的 Linux 服务器上不断收到此错误 Traceback most recent call last File usr local lib64 python2 7 site pack
Python BS4 Scraper 仅返回每个页面的前 9 个结果

我让这段代码按预期工作只是它并没有完全按预期工作一切似乎都很顺利直到我检查了我的 csv 输出文件并注意到我每页只得到前 9 个结果每页应该有 40 个结果因此我得到的结果少于预期的 25 有什么想法吗 import reques
Puppeteer 的行为与开发者控制台不同

我正在尝试使用 Puppeteer 提取此页面的标题 https www nordstrom com s zella high waist studio pocket 7 8 leggings 5460106 https www nords
使用 Python 从网站下载所有 pdf 文件

我遵循了几个在线指南试图构建一个可以识别并从网站下载所有 pdf 的脚本从而避免我手动执行此操作到目前为止这是我的代码 from urllib import request from bs4 import BeautifulSoup
无法使用 BeautifulSoup 和 Requests 抓取下拉菜单

我想抓取百年灵网站上的产品页面以获取各种信息示例页面 https www breitling com gb en watches navitimer b01 chronograph 46 AB0127211C1A1 https www b
VBA XML V6.0 如何让它等待页面加载？

我一直在努力寻找答案但似乎找不到任何有用的东西基本上我是从一个网站上拉取的当您在该页面上时该网站会加载更多项目我希望我的代码在加载完成后提取最终数据但不知道如何让 XML httprequest 等待 Edited Sub p
curl 无法获取网页内容，为什么？

我正在使用curl 脚本转到链接并获取其内容以进行进一步操作以下是链接和curl脚本
Selenium 与 scrapy 的动态页面

我正在尝试使用 scrapy 从网页中抓取产品信息我要抓取的网页如下所示从包含 10 个产品的 Product list 页面开始单击下一步按钮将加载接下来的 10 个产品两个页面之间的 URL 不会改变我使用 LinkExt

随机推荐

Django Haystack ElasticSearch 上“未找到结果”

Failed to query Elasticsearch using TransportError 400 u parsing exception u no query registered for filtered Traceback
Liquibase 3.0.1 Gradle 集成

我们使用 liquibase 进行数据库版本控制使用 gradle 作为构建工具目前我们使用 liquibase in version 2 0 5 com augusttechgroup gradle liquibase plugin
使用 google apps 脚本保护范围

我有很多纸张需要保护但某些范围除外是否可以使用脚本来执行此操作因为我有几张工作表并且工作表中的许多范围需要不受保护以便工作人员可以编辑工作表我需要不受保护的范围是重复的所以我希望它是可行的我将在我给您的示例表上用黄色填充我想
site_url() 和 base_url() 有什么区别？

正如我读过的一些资源 base url and site url 功能于Codeigniter几乎相同尽管我的 Codeigniter 版本 2 1 3 在其 config php 文件在 config 目录中中没有 site url
如何在 Mac 上的 webkit 中消除 html5 搜索输入中的水平填充或缩进？

仅在 Mac 上的 webkit 中搜索输入中的文本从左侧缩进这是一个演示 http oscorp net experiments search input 即使在剥离所有填充文本缩进和设置之后 webkit appearance t
gem5 系统调用模拟 OpenBLAS cblas_dgemm 失败并显示“致命：系统调用 mbind (#237) 未实现”

我正在开发一个程序我需要在 SE 模式下模拟使用 gem5 调用 OpenBLAS 函数的程序我的代码 C语言如下 include
循环记录的列

我需要循环类型RECORD按键索引排列的项目就像我可以使用其他编程语言中的数组结构来做到这一点例如 DECLARE data1 record data2 text BEGIN FOR data1 IN SELECT FROM some
数据库设计-具有属性的多类别产品

我正在为供应商设计一个基本的库存系统他们有许多不同的产品类别每个产品类别都有许多不同的属性 A x1 x2 x3 a1 a2 a3 B x1 x2 x3 b1 b2 b3 b4 C x1 x2 x3 c1 c2 Laptop Make
WPF - AvalonDock - 关闭文档

我在 WPF 项目中将 AvalonDock 与 MVVM 结合使用当我点击 X 选项卡的关闭按钮时我的文档将关闭但保留在内存中看来只是隐藏而已它没有从我的中删除Model Documents收藏如果我添加DockingMana
Objective-C 对象可以成为它自己的委托吗？这是良好的编程习惯吗？

我知道这是可能的但这真的是一个好的编程实践吗这个想法是子类化UIAlertView并订阅我自己作为我自己的代表以便能够添加按钮和块处理程序这样当我得到alertView clickedButtonAtIndex 我将传递的块称为
实例化地形区域内的对象

using System Collections using System Collections Generic using UnityEngine public class Teleport MonoBehaviour public V
与 DateSeparator 和 LongTimeFormat 相关的未声明标识符错误[重复]

这个问题在这里已经有答案了我有一个在Delphi 5中创建的程序该程序在Win7和Win8上仍然运行得近乎完美但是当尝试在 XE6 试用版中运行此代码时我遇到两个错误但无法修复 DateSeparator 和 LongTime
在带有 Spring Boot 的 JSP 中使用自定义标记文件

我有一个 Spring Boot 项目我尝试在 JSP 文件中进行以下调用
FFmpeg 输出文件格式，无扩展名

我正在开发一个系统需要以以下形式存储视频 path to video
Python 一维 numpy 数组的中值过滤器

我有一个numpy array有一个维度dim array 我期待获得像这样的中值滤波器scipy signal medfilt data window len 这实际上不适用于numpy array可能是因为维度是 dim array 1
python中的数字输入识别

我正在尝试制作一个脚本来询问数学方程然后用户必须输入他们认为的答案然后 python 会输出答案然而由于某种原因 python 不喜欢 raw input 与 eval 语句相关例如代码是 print What s 5 4 a
如何在 Spark 2.4 中加载自定义变压器

我正在尝试在 Spark 2 4 0 中创建自定义变压器保存起来效果很好但是当我尝试加载它时出现以下错误 java lang NoSuchMethodException TestTransformer
如何让 Unity 3D 中的对象保留在场景中并且不会重新创建

我正在尝试找到一种在 Unity 3D 中播放背景音乐的好方法我希望音乐在场景加载中保持一致播放加载时不要破坏很好并且有效但是每次我加载同一个场景时它都会生成另一个音乐游戏对象因为场景本身包含游戏对象我该如何解决我的问题我是一
aspx 和 aspx.cs 文件之间的链接断开

在重命名不同的 ASPX 页面后我曾多次遇到同样的问题令我惊讶的是我在 stackoverflow 上找不到其他人也有同样的问题当我运行 ASP NET C 项目时调试器会向我显示一条类似这样的消息 Error 5 The name
使用scrapy提取XHR请求？

我正在尝试抓取使用 javascript 生成的社交点赞计数如果我绝对引用 XHR url 我就能够抓取所需的数据但是我尝试抓取的网站动态生成这些 XMLHttpRequest 其中包含我不知道如何提取的查询字符串参数例如您可以看到

使用scrapy提取XHR请求？

使用scrapy提取XHR请求？ 的相关文章

随机推荐

热门标签

使用scrapy提取XHR请求？的相关文章