需要帮助来模拟 xhr 请求

2024-03-03

我需要使用“加载更多按钮”来抓取网站。这是我用 Python 编写的蜘蛛代码：

import scrapy
import json
import requests
import re
from parsel import Selector
from scrapy.selector import Selector 
from scrapy.http import HtmlResponse

headers = {
'origin': 'https://www.tayara.tn',
'accept-encoding': 'gzip, deflate, br',
'accept-language': 'en-US,en;q=0.9',
'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.110 Safari/537.36',
'content-type': 'application/json',
'accept': '*/*',
'referer': 'https://www.tayara.tn/sc/immobilier/bureaux-et-plateaux',
'authority': 'www.tayara.tn',
'dnt': '1',
}
data = '{"query":"query ListingsPage($page: Page, $filter: SearchFilter, $sortBy: SortOrder) {\\n  listings: searchAds(page: $page, filter: $filter, sortBy: $sortBy) {\\n    items {\\n      uuid\\n      title\\n      price\\n      currency\\n      thumbnail\\n      createdAt\\n      category {\\n        id\\n        name\\n        engName\\n        __typename\\n      }\\n      user {\\n        uuid\\n        displayName\\n        avatar(width: 96, height: 96) {\\n          url\\n          __typename\\n        }\\n        __typename\\n      }\\n      __typename\\n    }\\n    trackingInfo {\\n      transactionId\\n      listName\\n      recommenderId\\n      experimentId\\n      variantId\\n      __typename\\n    }\\n    totalCount\\n    pageInfo {\\n      startCursor\\n      hasPreviousPage\\n      endCursor\\n      hasNextPage\\n      __typename\\n    }\\n    __typename\\n  }\\n}\\n","variables":{"page":{"count":36,"offset":"cDEwbg==.MjAxOC0xMi0wMlQxMzo1MDoxMlo=.MzY="},"filter":{"queryString":null,"category":"140","regionId":null,"attributeFilters":[]},"sortBy":"CREATED_DESC"},"operationName":"ListingsPage"}'

class Tun(scrapy.Spider):

name="tayaracommercial"
start_urls = [
    'https://www.tayara.tn/sc/immobilier/bureaux-et-plateaux'
    ]

def parse(self, response):        
    yield Request('https://www.tayara.tn/graphql', method='post', headers=headers, body=data, self.parse_item)


def parse_item(self, response):

    source = 'Tayara'        
    reference = response.url.split('//')[1].split('/')[3]
    titre = response.xpath('//h1[@data-name="adview_title"]/text()').extract()   

    yield{'Source':source, 'Reference':reference, 'Titre':titre}

这是我小小的尝试。我知道那是假的。你能纠正我吗？

您可以使用以下示例来抓取数据：

# Importing the dependencies
# This is needed to create a lxml object that uses the css selector
 from lxml.etree import fromstring
  
# The requests library
import requests
  
class WholeFoodsScraper:
  
  API_url = 'http://www.wholefoodsmarket.com/views/ajax'
    scraped_stores = []

    def get_stores_info(self, page):
     
        # This is the only data required by the api 
        # To send back the stores info
        data = {
        'view_name': 'store_locations_by_state',
        'view_display_id': 'state',
        'page': page
        }
        # Making the post request
        response = requests.post(self.API_url, data=data)

        # The data that we are looking is in the second
        # Element of the response and has the key 'data', 
        # so that is what's returned
        return response.json()[1]['data']

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

AJAX

webscraping

XMLHttpRequest

Scrapy

需要帮助来模拟 xhr 请求的相关文章

如何在anaconda python 3.6上安装tensorflow

我使用 anaconda 包安装了新版本的 python 3 6 但是我无法安装张量流总是收到这样的错误 tensorflow gpu 1 0 0rc2 cp35 cp35m win amd64 whl 在此平台上不受支持如何在 ana
让 Django 提供可下载文件

我希望网站上的用户能够下载路径被遮挡的文件因此无法直接下载它们例如我希望 URL 是这样的 http example com download f somefile txt 在服务器上我知道所有可下载的文件都位于该文件夹中 home
熊猫加入具有不同索引级别/日期时间的数据帧？

嗨我有两个 DataFrame 如下所示 dineType menuName unique columns date y m d
Jquery：排除元素

我有以下代码 document ready function a rel each function this qtip content text img class middle src i icon processing gif alt
如何使用格式保存 Tkinter 文本小部件的内容

我在 python 中使用 Tkinter 在文本窗口中显示输出我发现使用 get 功能我可以从此窗口检索文本内容但我有用不同背景颜色标记的文本部分是否可以将内容与这些颜色一起复制到文件例如 html 或 doc 中没有对你想要的
使用 python boto3 管理 Route53 中具有多个 IP 的 A 记录

我的route53中有一条A记录后面有多个IP 例子 A record dummy xyz com 点IPs 1 1 1 1 2 2 2 2 和 3 3 3 3路由策略 Simple 我使用下面的代码来更新单个 IP 的记录 Change
LogRecord 没有预期的字段

在使用 logging 模块的Python中文档承诺LogRecord实例将具有许多属性这些属性在文档中明确列出然而情况似乎并不总是如此当我不使用日志记录模块的 basicConfig 方法时下面的程序显示属性 asctime
pandas groupby 并转换为 json 列表

我有一个如下所示的 pandas 数据框 idx f1 f2 f3 1 a a b 2 b a c 3 a b c 87 e e e 我需要将其他列转换为基于索引列的字典列表所以最终结果应该是 idx features 1 f1 a f
将具有多个时区的 pandas 列转换为单个时区

Problem 我在 pandas DataFrame 中有一个列其中包含带有时区的时间戳此列中有两个不同的时区我需要确保只有一个这是该列末尾的输出 260003 2019 05 21 12 00 00 06 00 260004 2
如何检查discord.py中的所有者

我试图让这个命令只有所有者才能运行它是否有办法检查服务器的最高角色或创建者我尝试了 commands is owner 但这仅检查某人是否是机器人的所有者 Guild owner https discordpy readthedocs
NumPy 根据另一个数组中的值对第三个数组中的每个匹配元素求和一个数组

我有两个 numpy 数组一个包含值另一个包含每个值类别 values np array 1 2 3 4 5 6 7 8 9 10 valcats np array 101 301 201 201 102 302 302 202 102
自动创建带有文件输出的目录[重复]

这个问题在这里已经有答案了假设我想制作一个文件 filename foo bar baz txt with open filename w as f f write FOOBAR 这给出了一个IOError since foo bar不存
Python：两个列表之间的成对比较：列表 a >= 列表 b？

如果我想检查列表中的所有元素 a 1 2 3 6 大于或等于另一个列表中对应的元素 b 0 2 3 5 如果 a i gt b i 对于所有i的则返回 true 否则返回 false 这有逻辑功能吗比如a gt b 谢谢你可以这样做
Woocommerce 中的 Ajaxify 标头购物车项目计数

我正在为 WordPress 创建一个自定义 woocommerce 集成主题我在顶部有一个 blob 显示购物车中的商品总数我想使用 Jquery 更新此 blob 无需重新加载页面我能够通过获取购物车中的当前数量来增加商品数量bl
如何在 Python 中连接两个列表？

这个问题的答案是社区努力 help privileges edit community wiki 编辑现有答案以改进这篇文章目前不接受新的答案或互动如何在 Python 中连接两个列表 Example listone 1 2 3 lis
使用 Celery 通过 Gevent 进行实时、同步的外部 API 查询

我正在开发一个 Web 应用程序该应用程序将接收用户的请求并且必须调用许多外部 API 来编写对该请求的答案这可以直接从主 Web 线程使用 gevent 之类的东西来扇出请求来完成或者我在想我可以将传入的请求放入队列中并使用
如何动态选择要在flask中使用的模板目录？

默认情况下 Flask 使用存储在 template 目录中的模板文件 flaskapp application py templates hello html 有没有办法根据登录的用户动态选择模板目录这就是我想要的目录结构 flaska
如何将 Django 数据库中的模板标签解释/渲染为 HTML

我正在尝试添加带有来自 Django 管理站点的图像的帖子但安全自动转义关闭过滤器无法解释 Django 的模板标签 My input and page look like 复制图像地址给出http 127 0 0 1 8000 7B
如何将动态数据传递给装饰器

我正在尝试编写一个基本的 CRUD 控制器类来执行以下操作下列的 class BaseCrudController model field validation template dir expose self template dir
如何通过解析导入来组合并获取单个 Python 文件

我正在尝试获取单个 Python 文件作为输出我有一个 Python 脚本其中有多个此类导入 from that import sub 导入来自所有本地模块而不是来自系统或 Python 库有什么方法可以解决这些问题并获得一个完整的

随机推荐

在下拉菜单中保持顶部菜单项突出显示

只是将这个网站放在一起并希望当您将鼠标悬停在下拉菜单项上时带有下拉菜单的菜单项以白色突出显示 http dl dropbox com u 7086475 Paul 20Day index html http dl dropbox com
对无效命名列的属性访问

使用 Pandas 0 11 0 我尝试从具有以下结构的 CSV 文件中读取数据 Date Time Data1 Data2 5 10 13 23 17 0 5 10 14 20 17 1 5 10 15 27 17 3 为了根据现有数据创
如何在登录时显示带有欢迎消息的通知？

我想使用一个名为通知栏的 primefaces 工具在用户登录时显示一条欢迎消息问题是我不知道如何触发它只有在登录成功时如果密码错误不应该被显示并且即使我被重定向到另一个页面也会被显示这是我的登录页面的样子
类型错误：open() 缺少必需参数“文件”（位置 1）

我尝试使用 Python 在 mturk 上发布示例问题因此我按照教程并复制其代码如下所示但是我总是收到如下错误 File C Users jingh PycharmProjects test example py line 22
Istio 1.5 cors 不工作 - 对预检请求的响应未通过访问控制检查

当在 istio ingressgateway 目标上配置 Jwt 策略时 Cors 预检请求不起作用 Gateway apiVersion networking istio io v1alpha3 kind Gateway metadat
将 python 稀疏矩阵 dict 转换为 scipy 稀疏矩阵

我正在使用Pythonscikit learn对于文档聚类我有一个稀疏矩阵存储在dict object 例如 doc term dict d1 t1 12 d2 t3 10 d3 t2 5 from mysql data table
在 Excel Desktop 中创建和设置 Office.Settings 后，无法在 Excel Online 中检索

根据 API 文档办公室设置 https learn microsoft com en us javascript api office office settings view excel js preview对象按加载项和每个文档保
getline 和线程的问题

我有一个在 2 个线程上工作的客户端一是发送数据二是接收数据在发送数据时我有std getline std cin string 现在在这个线程中我有无限循环如果第二个线程结束或用户输入 EXIT 命令则一切都很好期望当第二
使用 Delphi 进行数据库开发的最佳实践是什么？

如何高效地使用 RAD 方式重用代码任何示例现有库基本污垢生成器我该如何设计OOP方式哪个用于的设计模式连接抽象不同引擎数据库访问层 bde dbexpress ado 基本 CRUD 运营我有自己的 Delph
julia：在没有互联网的情况下创建和使用本地包

我正在尝试创建 Julia 语言的包并在项目中使用它现在我只有一个 jl 文件我不知道如何用它创建一个包我读过这个link http julia readthedocs org en latest manual packages 但我
使用 OpenGL ES 2.0 进行模板制作

I am trying to figure out a way to cut out a certain region of a background texture such that a certain custom pattern i
C# StyleCop - 使用“this”。基类成员的前缀是否像当前类成员一样？

StyleCop 有一个关于使用 this 的规则调用类成员的前缀 SA1101 此规则对于从其基类继承的类的成员例如方法是否适用 Example class BaseClass protected void F1 class Chi
将热图添加到 Folium 中的图层

我有这个示例代码 from glob import glob import numpy as np import folium from folium import plugins from folium plugins import He
对 DATE 类型的值进行日期算术，不会产生 TIMESTAMP

假设我正在做类似的查询其中due date属于类型date SELECT due date 7 INTERVAL 1 DAY AS due date mod FROM test table 所结果的due date mod是类型times
验证委托是否已通过最小起订量调用

我有一个类通过参数获得代表这个类调用该委托我想用 Moq 对它进行单元测试我如何验证该方法是否被调用示例类 public delegate void Foo int number public class A int a 5 pub
通过 sendgrid 发送的纯文本电子邮件中的额外换行符

我们使用 CodeIgniter v1 7 和 PHPMailer v5 1 从 PHP 发送纯文本电子邮件当前的生产设置使用廉价的 SMTP 中继计划切换到 CritSend 或 SendGrid 我们现在正在 Rackspace 云
如何通过线性插值扩展数组

我想要的是将长度为 m 的数组扩展为长度为的数组n n gt m 并对缺失值进行线性插值例如我想扩展这个数组 1 5 1 7 到一个长度的数组7 结果应该是 1 3 5 3 1 5 7 其中粗体数字由线性插值得出有没有一种简单的方法
Bash PS1 设置 - 如何将当前文件夹恢复为终端标题

我最近将这些行添加到我的 bashrc 文件中以显示当前分支如果我位于 git 工作文件夹中并且它对此效果很好然而我丢失的是当前文件夹名称曾经显示在我打开的终端的选项卡中但现在不是它总是只显示终端我可以拿回来并保留 git
当字符串中有点时，为什么“is”关键字有不同的行为？

考虑这段代码 gt gt gt x google gt gt gt x is google True gt gt gt x google com gt gt gt x is google com False gt gt gt 为什么会这样呢
需要帮助来模拟 xhr 请求

我需要使用加载更多按钮来抓取网站这是我用 Python 编写的蜘蛛代码 import scrapy import json import requests import re from parsel import Selector f

需要帮助来模拟 xhr 请求

需要帮助来模拟 xhr 请求 的相关文章

随机推荐

热门标签

需要帮助来模拟 xhr 请求的相关文章