使用 scrapy 与 javascript __doPostBack 方法时出现问题

2024-01-08

尝试自动从公共搜索中抓取搜索结果，但遇到了一些麻烦。 URL 的形式为

http://www.website.com/search.aspx?keyword=#&&page=1&sort=Sorting

当我点击页面时，访问此页面后，它会略有变化

http://www.website.com/search.aspx?keyword=#&&sort=Sorting&page=2

问题是，如果我尝试直接访问第二个链接而不首先访问第一个链接，我将被重定向到第一个链接。我目前的尝试是在 scrapy 中定义一长串 start_urls 。

class websiteSpider(BaseSpider):
    name = "website"
    allowed_domains = ["website.com"]
    baseUrl = "http://www.website.com/search.aspx?keyword=#&&sort=Sorting&page="
    start_urls = [(baseUrl+str(i)) for i in range(1,1000)]

目前，这段代码只是一遍又一遍地访问第一页。我觉得这可能很简单，但我不太知道如何解决这个问题。

更新：对此进行了一些调查，发现站点通过使用 __doPostBack(arg1, arg2) 向前一页发送 POST 请求来更新每个页面。我现在的问题是如何使用 scrapy 模拟这个 POST 请求。我知道如何发出 POST 请求，但不知道如何向其传递我想要的参数。

第二次更新：我已经取得了很大的进步！我想......我查看了示例和文档，最终将我认为应该解决这个问题的这个版本拼凑在一起：

def start_requests(self):
    baseUrl = "http://www.website.com/search.aspx?keyword=#&&sort=Sorting&page="
    target = 'ctl00$empcnt$ucResults$pagination'
    requests = []
    for i in range(1, 5):
        url = baseUrl + str(i)
        argument = str(i+1)
        data = {'__EVENTTARGET': target, '__EVENTARGUMENT': argument}
        currentPage = FormRequest(url, data)
        requests.append(currentPage)
    return requests

这个想法是，这就像对待表单一样对待 POST 请求并进行相应的更新。然而，当我实际尝试运行它时，我得到以下回溯（为简洁起见，精简）：

2013-03-22 04:03:03-0400 [guru] ERROR: Unhandled error on engine.crawl()
dfd.addCallbacks(request.callback or spider.parse, request.errback)
      File "/usr/lib/python2.7/dist-packages/twisted/internet/defer.py", line 280, in addCallbacks
        assert callable(callback)
    exceptions.AssertionError: 

2013-03-22 04:03:03-0400 [-] ERROR: Unhandled error in Deferred:
2013-03-22 04:03:03-0400 [-] Unhandled Error
    Traceback (most recent call last):
    Failure: scrapy.exceptions.IgnoreRequest: Skipped (request already seen)

改变问题以更直接地了解这篇文章已经变成了什么。

想法？

附：当第二个错误发生时，scrapy 无法完全关闭，我必须发送 SIGINT 两次才能真正结束。

FormRequest构造函数中没有位置参数formdata:

class FormRequest(Request):
    def __init__(self, *args, **kwargs):
        formdata = kwargs.pop('formdata', None)

所以你实际上必须说formdata=:

requests.append(FormRequest(url, formdata=data))

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

javascript

python

aspnet

Scrapy

dopostback

使用 scrapy 与 javascript __doPostBack 方法时出现问题的相关文章

在 Jest 测试中设置时刻时区

我有 util 函数它以特定的日期格式解析给定的日期即 2019 01 28 然后使用momentJS检索当天的开始并将其转换为 ISO 日期格式 dates js import moment from moment export co
如何在 iPython 中获取最后分配的变量的值？

我是一个完全的 iPython 新手但我想知道是否有办法获取最后分配的变量的值 In 1 long variable name 333 In 2
如何使用jsPDF设置图像以适合页面宽度？

有什么办法可以解决这个问题吗我尝试以毫米为单位设置宽度和高度如何将其设置为全角您可以获取 PDF 文档的宽度和高度如下所示 var doc new jsPDF p mm a4 var width doc internal pageS
创建 df 以生成给定格式的 json

我正在尝试生成一个 df 来生成下面的 json Json数据 name flare children name K1 children name Exact size 4 name synonyms size 14 name K2 chi
如何避免在matplotlib中调用latex（输出到pgf）

我使用 matplotlib 及其 pgf 后端来生成包含在 LaTeX 投影仪文档中的绘图当我使用未定义的乳胶命令时我遇到了麻烦但对于我的应用程序我不需要 matplotlib 来使用 Latex 生成标签或注释我只想要正确的
将 Selenium 与 PyCharm CE 结合使用

我正在尝试将 Selenium 与 PyCharm CE 一起使用我已经使用 pip install Selenium 安装了 Selenium 并且可以通过终端使用它但是当我尝试将它与 PyCharm 一起使用时出现导入错误 Imp
EmberJS：如何为 ember-data RESTAdapter 中的模型提供特定的 URL？

问题一如果我有一个名为 Company 的余烬数据模型我如何告诉它点击 businesses and businesses id而是检索记录有没有办法指定给定模型的 url 更好的是像 BackboneJS 一样我可以在运行时计算
如何在Python中获取套接字的外部IP？

当我打电话时socket getsockname 在套接字对象上它返回我的机器的内部 IP 和端口的元组但是我想找回我的外部IP 最便宜最有效的方式是什么如果没有外部服务器的配合这是不可能的因为您和另一台计算机之间可能存在任意
如何在 PyTorch 中对子集使用不同的数据增强

如何针对不同的情况使用不同的数据增强转换 Subset在 PyTorch 中吗例如 train test torch utils data random split dataset 80000 2000 train and test将具
Python 用静态图像将 mp3 转换为 mp4

我有x文件包含一个列表mp3我想转换的文件mp3文件至mp4文件带有static png photo 似乎这里唯一的方法是使用ffmpeg但我不知道如何实现它我编写了脚本来接受输入mp3文件夹和一个 png photo 然后它将创建新文件
允许在 Safari 上聊天应用程序使用 audio.play()

由于苹果禁用了自动播放音频的功能HTMLMedia Element play https developer mozilla org en US docs Web API HTMLMediaElement play在没有用户交互的 java
使用枚举名称而不是值对 Pydantic 字段进行编码

我有一个枚举类 class Group enum Enum user 0 manager 1 admin 2 我有一个 pydantic 模型 class User BaseModel id int username str group G
如何使用 Typescript 设置 Material-UI for React？

我在将 Material UI 添加到我的 React 项目中时遇到了一些问题该项目是用 Typescript 编程的根据教程我首先添加react tab event plugin import injectTapEventPlugi
访问 Scrapy 内的 django 模型

是否可以在 Scrapy 管道内访问我的 django 模型以便我可以将抓取的数据直接保存到我的模型中我见过this https scrapy readthedocs org en latest topics djangoitem ht
在 ASP.NET 中创建自定义文化

我想在 App GlobalResources 文件夹中创建一个名为 shopping en sg resx 的新加坡英语 en sg 资源文件我在编译过程中遇到错误错误 1 命名空间资源已经包含了一个定义购物 c WINDOWS
如何在画布中旋转图表同时保持数字垂直？

我正在尝试围绕其中心旋转画布中的图表同时保持字母直立我正在尝试使用 ctx rotate 但它使用画布的左侧作为中心来旋转整个图表以下链接提供了视觉效果我希望它看起来像绿色而不是红色就像我的代码当前所做的那样视觉解释 http
仅使用 javascript 获取网站的正文元素

我想检索以下网站的正文内容http sports espn go com nhl bottomline scores nhl s left1 http sports espn go com nhl bottomline scores nhl
ReactJS setState 仅在嵌套在 setState 中时才有效

问题当我使用 this setState 并在回调中输出状态时它根本不会改变但是当我将 setstate 嵌套在 setstate 中时它将正常工作例子这不行 this setState data newData 这确实有效 t
Pandas：合并多个数据框并控制列名称？

我想将九个 Pandas 数据帧合并到一个数据帧中对两列进行联接控制列名称这可能吗我有九个数据集它们都有以下列 org name items spend 我想将它们加入到具有以下列的单个数据框中 org name items df
matplotlib imshow() 和像素强度

我试图了解矩阵的值是如何输入到 matplotlib 的imshow 函数确定灰度模式下像素的强度考虑示例代码 import random import matplotlib pyplot as plt import matplotlib

随机推荐

正则表达式匹配不相等或不反转的数字组

我在这里指的是这个问题的后续正则表达式匹配两个不相等的数字 https stackoverflow com questions 5257685 regular expression to match two numbers that ar
Swift 3 / iOS 10 / TodayExtension - UserDefaults 始终返回 nil

这是我在这个网站上的第一个问题我有一个无法解决的问题我正在开发一个带有 Today 扩展的简单笔记应用程序我在 Swift 2 2 和 iOS 9 中没有遇到任何问题问题只出现在 iOS 10 上的 Swift 2 3 和 Swif
从 Python 访问 COM 方法

我有一个旧的 Windows DLL 没有源代码它实现了实用函数表几年前计划将其转换为 COM 对象以便实现 IUnknown 接口为了使用这个 DLL 有一个头文件简化的 interface IFunctions public
在编写 C 代码时如何优雅地利用 REV 和 RBIT 等 ARM 指令？

我正在编写可以为 Arm Cortex M3 微控制器编译的 C 代码该微控制器支持多种有用的指令可有效操作寄存器中的位包括 REV RBIT SXT 在编写C代码时如果我需要那些特定的功能如何利用这些指令例如我怎样才能完成这
Django：标记为已读“通知”

我正在做一个学校项目现在任何用户都可以提出问题为了在任何用户提出问题时通知所有用户我创建了一个新应用程序并在提出问题时通过简单的视图通知他们但这还只是普通的通知用户打开通知选项卡后如何将它们标记为已读就像在社交网络上
如何从浏览器读取客户端的机器/计算机名称？

如何从浏览器读取客户端的机器计算机名称是否可以使用 JavaScript 和或 ASP NET 您有时可以使用 IE 来完成此操作因为我已经在只有 IE 的 Intranet 上的内部应用程序中完成了此操作请尝试以下操作 fu
按字符串选择列时，Dplyr 的 tbl_df 会出现意外行为

通常当以编程方式使用 dplyr 时我希望通过名称选择列其中列名称作为字符串存储在某个变量中我注意到尝试使用 dplyr 执行此操作通常会导致意外结果这似乎是由于 tbl df 的处理方式造成的以下是一些示例 regular d
如何将一个函数作为参数传递给另一个函数

我想将一个函数作为参数传递给另一个函数例如 void myFunction boolean coondition void function if condition function 在 Java 8 中这可能吗不你不能传递方法但
从c# 连接到oracle

我正在尝试从 C 连接 Oracle 11g 我已关注此链接定义了连接别名如下所示 moviess DESCRIPTION ADDRESS PROTOCOL TCP HOST localhost PORT 1521 CONNECT D
Entity Framework 4.1 Fluent API 中具有联接表和可选关系的一对多

再次使用无法更改的旧数据库并使用 Entity Framework 4 1 和 Fluent API 仅读取数据 public class Client Key public int ClientID get set public str
如何 Dockerize Windows 应用程序

我有一个 Windows 应用程序我想将其容器化它是一个 Windows 桌面应用程序不是 Web 应用程序我做了一些搜索发现关于容器化桌面应用程序的信息很少我想要容器化的应用程序在 WindowsServerCore 上运行良
Angular4 更改 md 按钮的波纹颜色

我使用 Material for Angular4 在网页中创建了一个 md 按钮有没有办法改变波纹效果的颜色并使其变为白色我还可以更改其他波纹属性例如波纹效果的持续时间吗事实证明为了更改波纹属性应该在 mat ripple t
BehaviourSubject 初始值不适用于 share()

share 运算符应用于BehaviorSubject BehaviourSubject 有初始值目标是创建单个共享订阅但是当BehaviorSubject有初始值时这种共享订阅似乎不起作用得到意想不到的结果代码如下所示 let
使用我自己的实体而不是 POCO 实体

我正在使用实体框架我可以使用自己的实体来代替 POCO 实体吗我可以使用任何实体或者实体名称和成员有任何限制吗如果实体的成员与字段的名称不同如何在 db 字段与实体的成员本身之间映射 UPDATE我已经拥有数据库广告一个大型项目
将函数放入对象中与对其进行原型设计之间有什么区别？

向对象添加函数和将函数原型化到对象上有什么区别原型设计允许对象模型调用自身吗函数对象通常用于对一组函数进行命名空间以便一个容器对象具有许多方法而不是许多全局函数这样做的好处是保持代码组件按对象可能还有对象层次结构进行分类或
三个值的中值

我正在尝试编写一个 C 程序它接受 3 个值作为函数参数并返回中位数该程序运行得很好直到我意识到它不能使用相同的值两次或更多次例如如果输入是 1 2 3 我得到 2 正确的中位数但如果输入是 1 2 1 或 1 1 1 循环从头
如何将列表转换为以索引作为值的字典？

我正在尝试转换以下列表 l A B C 对于像这样的字典 d A 0 B 1 C 2 我尝试过其他帖子的答案但没有一个对我有用我现在有以下代码 d l i i for i in range len l 这给了我这个错误 unhashab
检查类型是否可为 Null 的正确方法[重复]

这个问题在这里已经有答案了为了检查是否Type propertyType 可以为空我正在使用 bool isNullable Nullable 1 Equals propertyType Name 有什么方法可以避免使用魔术字符串吗绝
当我的 JAR 位于类路径中时，为什么 Ant 会说“NoClassDefFound”？

我正在使用 Java 1 6 Eclipse 和 Ant 以下是我创建 jar 文件并运行它的目标
使用 scrapy 与 javascript __doPostBack 方法时出现问题

尝试自动从公共搜索中抓取搜索结果但遇到了一些麻烦 URL 的形式为 http www website com search aspx keyword page 1 sort Sorting 当我点击页面时访问此页面后它会略有变化 ht

使用 scrapy 与 javascript __doPostBack 方法时出现问题

使用 scrapy 与 javascript __doPostBack 方法时出现问题 的相关文章

随机推荐

热门标签

使用 scrapy 与 javascript __doPostBack 方法时出现问题的相关文章