使用 selenium 登录 stackoverflow 可以正常工作，但使用 scrapy python 则不行。如何使用无头浏览登录？

2024-04-29

我一直在尝试自动登录 stackoverflow 来学习网络抓取。首先我尝试了 scrapy，但使用下面的代码我并没有那么幸运。

import scrapy
from scrapy.utils.response import open_in_browser

class QuoteSpider(scrapy.Spider):
    name = 'stackoverflow'
    start_urls = ['https://stackoverflow.com/users/login']


    def parse(self, response):
        token = response.xpath('.//*[@name="fkey"]/@value').extract_first()
        yield scrapy.FormRequest('https://stackoverflow.com/users/login?ssrc=head&returnurl=https://stackoverflow.com/',
        formdata = {
            'fkey': token,
            "ssrc": "head",
            'username': "[email protected] /cdn-cgi/l/email-protection",
            'password': 'example123',
            'oauth_version':'',
            'oauth_server':''
        },callback=self.startscraper)
    
    def startscraper(self,response):
        yield scrapy.Request('https://stackoverflow.com/users/12454709/gopal-kisi',callback=self.verifylogin)

    def verifylogin(self,response):
        open_in_browser(response)

所以，我后来尝试了selenium，我使用以下代码成功登录到stackoverflow。

from selenium import webdriver
import pandas as pd
import time

driver = webdriver.Chrome("./chromedriver.exe")
driver.get("https://stackoverflow.com/users/login?ssrc=head&returnurl=https%3a%2f%2fstackoverflow.com%2f")
time.sleep(2)
username = driver.find_element_by_xpath("//*[@id='email']")
username.clear()
username.send_keys("[email protected] /cdn-cgi/l/email-protection")
time.sleep(5)
password = driver.find_element_by_xpath("//*[@id='password']")
password.clear()
password.send_keys("example123")
time.sleep(0.5)
driver.find_element_by_xpath("//*[@id='submit-button']").click()
driver.close()

我知道 selenim 和 scrapy 是两种不同的方法。现在，对于抓取，我发现 scrapy 比 selenium 更容易处理和保存数据，而且它使用无头浏览，就像我需要的那样。

那么，有什么办法可以解决scrapy中的登录问题吗？或者，我可以将selenium与scrapy合并，这样我就可以使用selenium登录，然后剩余的工作可以由scrapy完成吗？

好像是网址https://stackoverflow.com/users/login https://stackoverflow.com/users/login被 robots.txt 禁止，所以我不确定 stackoverflow 是否允许自动化
您不需要 Selenium 来登录。您只需使用 Scrapy 即可。我根据他们官方的例子文档 https://docs.scrapy.org/en/latest/topics/request-response.html?highlight=from_response#topics-request-response-ref-request-userlogin。您可以使用 FromRequest.from_response 填充登录所需的大部分字段，只需添加正确的电子邮件和密码即可。以下内容在 scrapy shell 中适用于我：

from scrapy import FormRequest

url = "https://stackoverflow.com/users/login"
fetch(url)
req = FormRequest.from_response(
    response,
    formid='login-form',
    formdata={'email': '[email protected] /cdn-cgi/l/email-protection',
              'password': 'testpw'},
    clickdata={'id': 'submit-button'},
)
fetch(req)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

selenium

authentication

Scrapy

stackexchange

使用 selenium 登录 stackoverflow 可以正常工作，但使用 scrapy python 则不行。如何使用无头浏览登录？的相关文章

Python 子进程（ffmpeg）仅在我按 Ctrl-C 程序时启动？

我正在尝试使用 Cygwin 和 Python 2 7 并行运行一些 ffmpeg 命令这大概是我所拥有的 import subprocess processes set commands ffmpeg i input mp4 outpu
无法使用 BeautifulSoup 和 Requests 抓取下拉菜单

我想抓取百年灵网站上的产品页面以获取各种信息示例页面 https www breitling com gb en watches navitimer b01 chronograph 46 AB0127211C1A1 https www b
类型错误：float() 参数必须是字符串或数字，而不是“列表”python

我的 Python 有问题这是我的代码 def calcola a input b float a 0 split c float a 0 split d float a 0 split e float a 0 split j float
使用 pandas 将字符串对象转换为 int/float

import pandas as pd path1 home supertramp Desktop 100 life 180 data csv mydf pd read csv path1 numcigar Never 0 1 5 Ciga
Perl 是否有相当于 Python 的 `if __name__ == '__main__'` 的功能？

有没有一种方法可以确定当前文件是否是 Perl 源中正在执行的文件在 Python 中我们使用以下结构来做到这一点 if name main This file is being executed raise NotImplemente
如何在之前的 Facebook 身份验证后自动安全地让用户登录？

用户抱怨他们必须过于频繁地登录如果身份验证完全基于 Facebook OAuth 那么用户如何在下次访问该页面时自动登录用户流程示例用户点击使用 Facebook 登录用户通过 Facebook 进行身份验证并被重定向回网站用户
将一维数组转换为下三角矩阵

我想将一维数组转换为较低的零对角矩阵同时保留所有数字我知道numpy tril函数但它用零替换了一些元素我需要扩展矩阵以包含所有原始数字例如 10 20 40 46 33 14 12 46 52 30 59 18 11 22 30
在Python中以交互方式执行多行语句

我是 Python 世界的新手这是我用 Python 编写的第一个程序我来自 R 世界所以这对我来说有点不直观当我执行时 In 15 import math import random random random math sqrt
Django 不会以奇怪的错误“AttributeError: 'module' object has no attribute 'getargspec'”启动

我对 Django 的内部结构有点缺乏经验所以我现在完全陷入困境它昨天起作用了但我不记得我改变过任何重要的东西当我转身时DEBUG True任何恰好位于列表中第一个的模块上都有堆栈跟踪 Traceback most recent c
Django 模型字段默认基于另一个模型字段

我使用 Django Admin 构建一个管理站点有两张表一张是ModelA其中有数据另一个是ModelB里面什么也没有如果一个模型字段b b in ModelB为None 可以显示在网页上值为ModelA的场a b 我不知道该怎
reStructuredText：README.rst 未在 PyPI 上解析

我有一个托管在 Github 和 PyPI 上的 Python 项目在 Github 上 https github com sloria TextBlob blob master README rst https github com s
如何使用 PyMongo 在重复键错误后继续插入

如果我需要在 MongoDB 中插入尚不存在的文档 db stock update one document set document upsert True 将完成这项工作如果我错了请随时纠正我但是如果我有一个文档列表并想将它们全
在 Linux 上的 Python 中使用受密码保护的 Excel 工作表

问题很简单我每周都会收到一堆受密码保护的 Excel 文件我必须解析它们并使用 Python 将某些部分写入新文件我得到了文件的密码当在 Windows 上完成此操作时处理起来很简单我只需导入 win32com 并使用 clie
在 iPython/pandas 中绘制多条线会生成多个图

我试图了解 matplotlib 的状态机模型但在尝试在单个图上绘制多条线时遇到错误据我了解以下代码应该生成包含两行的单个图 import pandas as pd import pandas io data as web aapl
Python 3在for循环中更改字典键的值不起作用

我的 python 3 代码没有按预期工作 def addFunc x y print x y def subABC x y z print x y z def doublePower base exp print 2 base exp d
PyArmor - 打包为一个可执行文件

当我执行此命令时您好使用 PyArmor pyarmor pack main py 它将它打包到一个名为的文件夹中dist里面包含我的 exe 以及许多 Python 扩展文件据我所知 PyArmor 使用 PyInstaller 来
uri 警告中缺少端口：使用 Python OpenCV cv2.VideoCapture() 打开文件时出错

当我尝试流式传输 ipcam 时出现了如下所示的错误 tcp 000000000048c640 uri 中缺少端口警告打开文件时出错 build opencv modules videoio src cap ffmpeg impl h
Django Rest Framework POST 更新（如果存在或创建）

我是 DRF 的新手我阅读了 API 文档也许这是显而易见的但我找不到一个方便的方法来做到这一点我有一个Answer与 a 具有一对一关系的对象Question 在前端我曾经使用 POST 方法来创建发送到的答案api answe
selenium-webdriver 与 webdriverjs 有什么区别（以及何时使用）？

我是一位使用 selenium webdriver 的经验丰富的专业人士我正在探索有关如何测试 javascript 应用程序的更多选项我发现了 webdriverJs 不幸的是我不明白这两者 2 之间有什么区别有人可以解释一下何时
Java/Python 中的快速 IPC/Socket 通信

我的应用程序中需要两个进程 Java 和 Python 进行通信我注意到套接字通信占用了 93 的运行时间为什么通讯这么慢我应该寻找套接字通信的替代方案还是可以使其更快更新我发现了一个简单的修复方法由于某些未知原因缓冲输出流似

随机推荐

在 Web API 2 中返回字符串

听起来很简单我还没有找到任何关于这方面的文档也许我的措辞是错误的所以如果是这样一些关于这方面的好的文档将不胜感激我只想返回一个字符串或字符串类型的模型 return string here 我每次都会收到此错误 Severity
可基于多列格式化

我正在使用该包formattable生成格式化表格我发现了一个不错的资源在 R 中设置表格格式 http www r bloggers com formatting table output in r 但这里的箭头格式示例仅基于特定列我
Windows 从属设备上的 Jenkins Git SSH 密钥

目前我们在 Windows 上有一个 Jenkins 主服务器一个 ubuntu 从服务器和一个 Windows 从服务器我正在尝试在 Windows 从机上设置 git msysgit 已安装并且我将该目录包含在系统路径变量中以
C++ 中的全局对象

在下面的C 代码中 s分配在哪里它使用堆数据 bss 还是某种组合我使用的是 Linux x86 平台以防产生影响有没有办法让 g 编译器向我显示布局 include
为什么使用枚举而不是静态布尔？

为什么在模板元编程中使用 enum 而不是 static const bool 被认为是更好的做法我在 Alexandrescu 的书中读到过这一点但找不到它但我真的很想知道它关键原因是 static bool 毕竟是一个变量而
通过与 cytoscape.js 中特定节点的连接来过滤图表

Cytoscape 的新手我有一张图其中包含主导主网络和一些与我要删除的主网络未连接的较小网络浏览文档我看不到明显的解决方案我猜测可能需要一种自定义方法来循环所有节点检查它们与主集群中最中心节点的图形距离如果该距离未定义则删除
在 MySQL 中向 BIGINT 列添加索引有帮助吗？

我有一个包含数百万个条目的表以及一个包含BIGINT 20 每行的唯一值它们不是主键但在某些操作过程中有数千个SELECTs 在中使用此列WHERE条款问向该列添加索引是否有帮助当条目数量增长到数百万时我知道它适用于文本值但
如何解读这些时间戳？

我正在尝试解析一些 xml 文件中写入的时间戳大多数时间时间戳是这样的2009 07 22 07 00但有时我发现它们就像2009 07 22Z or 2009 07 22z 请帮助我如何解释这些 Z 以及如何解析它们我认为这些 z 或
使用 Liquid 标记获取 Jekyll 中的今天日期

我认为这应该很容易但我无法使用 Liquid 标记在 Jekyll 页面中显示今天的日期根据文档 https github com Shopify liquid wiki Liquid for Designers 我应该能够这样做来
PCRE 库版本太旧

Bug Genie 3 需要 PCRE 库 8 0 或更高版本你有版本 7 8 2008 09 05 将您的系统更新到最新版本你常用的来源在我查看问题并尝试通过以下步骤更新我的 PCRE 库后 wget the latest sou
IE7 中列表项之间的 CSS 间隙

我无法消除 IE7 中列表项之间的间隙 HTML ul li div row 1 1 div div row 1 2 div li ul
Silverlight：创建圆形按钮模板

我决定尝试制作一个圆形按钮因此使用表达式混合我在 xaml 上放置了一个按钮控件然后我通过选择编辑控制部件模板 gt 编辑副本来创建一个模板我正在尝试设计它使按钮的左侧和右侧始终是完美的半圆这样无论按钮长得多高或多宽角
MySQL“插入...重复键”具有多个唯一键

我一直在阅读如何使用MySQL在重复键上插入看看它是否允许我避免选择一行检查它是否存在然后插入或更新然而当我阅读文档时有一个地方让我感到困惑文档是这样说的如果指定 ON DUPLICATE KEY UPDATE 并且插入的行
在 OpenGL 中，为什么 glVertexAttribPointer 要求“指针”参数以 void* 形式传入？

规格为glVertexAttribPointer如下 void glVertexAttribPointer GLuint index GLint size GLenum type GLboolean normalized GLsizei s
操作数类型冲突：uniqueidentifier 与 int 不兼容

当我尝试创建下面的存储过程时出现以下错误操作数类型冲突 uniqueidentifier 与 int 不兼容我不清楚是什么原因导致了这个错误 UserID 实际上是我所有表中的一个 int 有人可以告诉我我做错了什么吗 create
Pygame 简单循环在 Mac 上运行速度非常慢

E 在 OS X 和 Linux 上进行相同的测试后我可以确认以下情况仅发生在 OS X 上在 Linux 上它实际上以 1000 fps 的速度运行正如我碰巧想知道的那样有什么解释吗感谢 TextMate 我更喜欢在 Mac
Spring Zuul：动态禁用到服务的路由

我正在尝试禁用在运行时向 Eureka 注册的微服务的 Zuul 路由我正在使用 Spring Boot 这是一个例子 localhost hello localhost world 这两个是注册的微服务我想在运行时禁用到其中之一的路由
迁移到 AndroidX 后，应用程序崩溃并尝试在空引用上调用 androidx.fragment.app.FragmentManagerImpl.isDestroyed()

完整的堆栈仅包括 android 核心代码 java lang NullPointerException Attempt to invoke virtual method boolean androidx fragment app Frag
如何将散景 vbar 图表参数与 groupby 对象一起使用？

Question 下面的代码是来自 bokeh 文档的分组 vbar 图表示例这个例子中有一些我无法理解的地方 Factor cmap 和 vbar 中的 cyl mfr 来自哪里 mpg mean 是否计算 mpg 列的平均值如果那么
使用 selenium 登录 stackoverflow 可以正常工作，但使用 scrapy python 则不行。如何使用无头浏览登录？

我一直在尝试自动登录 stackoverflow 来学习网络抓取首先我尝试了 scrapy 但使用下面的代码我并没有那么幸运 import scrapy from scrapy utils response import open in

使用 selenium 登录 stackoverflow 可以正常工作，但使用 scrapy python 则不行。如何使用无头浏览登录？

使用 selenium 登录 stackoverflow 可以正常工作，但使用 scrapy python 则不行。如何使用无头浏览登录？ 的相关文章

随机推荐

热门标签

使用 selenium 登录 stackoverflow 可以正常工作，但使用 scrapy python 则不行。如何使用无头浏览登录？的相关文章