抓取多个帐户，即多次登录

2024-05-06

我可以成功抓取单个帐户的数据。我想在一个网站上抓取多个帐户，这意味着多次登录。如何管理登录/注销？

您可以在每个帐户会话中使用多个 cookiejar 并行抓取多个帐户，请参阅“cookiejar”请求元密钥http://doc.scrapy.org/en/latest/topics/downloader-middleware.html?highlight=cookiejar#std:reqmeta-cookiejar http://doc.scrapy.org/en/latest/topics/downloader-middleware.html?highlight=cookiejar#std%3areqmeta-cookiejar

澄清：假设我们有一系列帐户settings.py:

MY_ACCOUNTS = [
    {'login': 'my_login_1', 'pwd': 'my_pwd_1'},
    {'login': 'my_login_2', 'pwd': 'my_pwd_2'},
]

这是登录页面的链接：http://example.com/login

Create start_requests蜘蛛中的函数，在这个函数中我们可以循环MY_ACCOUNTS数组并登录每个帐户：

def start_requests(self):
    requests = []

    for i, account in enumerate(self.crawler.settings['MY_ACCOUNTS']):
        request = FormRequest('http://example.com/login', 
            formdata={'form_login_name': account['login'], 'form_pwd_name': account['pwd']}, 
            callback=self.parse,
            dont_filter=True)

        request.meta['cookiejar'] = i
        requests.append(request)

    return requests

form_login_name and form_pwd_name分别是登录表单上的字段名称。

dont_filter=True用于忽略重复请求的过滤器，因为这里我们发出 POST 请求以在同一页面上登录http://example.com/login

request.meta['cookiejar'] = i要分隔每个会话（登录）的 cookie，请不要忘记添加cookiejar子请求中的标识符，假设您想在登录后将 scrapy 重定向到页面：

def parse(self, response): 
    """ make some manipulation here ... """

    yield Request(my_url, meta={'cookiejar': response.meta['cookiejar']}, callback = my_callback)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

抓取多个帐户，即多次登录的相关文章

保存为 HDF5 的图像未着色

我目前正在开发一个将文本文件和 jpg 图像转换为 HDF5 格式的程序用HDFView 3 0打开似乎图像仅以灰度保存 hdf h5py File Sample h5 img Image open Image jpg data np
中断 Select 以添加另一个要在 Python 中监视的套接字

我正在 Windows XP 应用程序中使用 TCP 实现点对点 IPC 我正在使用select and socketPython 2 6 6 中的模块我有三个 TCP 线程一个读取线程通常会阻塞select 一个通常等待事件的写入线程
使用特定的类/函数预加载 Jupyter Notebook

我想预加载一个笔记本其中包含我在另一个文件中定义的特定类函数更具体地说我想用 python 来做到这一点比如加载一个配置文件包含所有相关的类函数目前我正在使用 python 生成笔记本并在服务器上自动启动它们因为不同的
Pandas/Google BigQuery：架构不匹配导致上传失败

我的谷歌表中的架构如下所示 price datetime DATETIME symbol STRING bid open FLOAT bid high FLOAT bid low FLOAT bid close FLOAT ask open
用枢轴点拟合曲线 Python

我有下面的图我想用 2 条线来拟合它使用 python 我设法适应上半部分 def func x a b x np array x return a x b popt pcov curve fit func up x up y 我想用另
跟踪 pypi 依赖项 - 谁在使用我的包

无论如何是否可以通过 pip 或 PyPi 来识别哪些项目在 Pypi 上发布可能正在使用我的包也在 PyPi 上发布我想确定每个包的用户群以及可能尝试积极与他们互动预先感谢您的任何答案即使我想做的事情是不可能的这实际上是不
您可以格式化 pandas 整数以进行显示，例如浮点数的“pd.options.display.float_format”？

我见过this https stackoverflow com questions 18404946 py pandas formatdataframe and this https stackoverflow com questions
YOLOv8获取预测边界框

我想将 OpenCV 与 YOLOv8 集成ultralytics 所以我想从模型预测中获取边界框坐标我该怎么做呢 from ultralytics import YOLO import cv2 model YOLO yolov8n pt
如何在 Python 中解析和比较 ISO 8601 持续时间？ [关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案我正在寻找一个 Python v2 库它允许我解析和比较 ISO 8601 持续时间may处于不同单
Python beautifulsoup 仅限 1 级文本

我看过其他 beautifulsoup 得到相同级别类型的问题看来我的有点不同这是网站我正试图拿到右边那张桌子请注意表的第一行如何展开为该数据的详细细分我不想要那个数据我只想要最顶层的数据您还可以看到其他行也可以展开但在本例
如何在不丢失注释和格式的情况下更新 YAML 文件 / Python 中的 YAML 自动重构

我想在 Python 中更新 YAML 文件值而不丢失 Python 中的格式和注释例如我想改造 YAML 文件 value 456 nice value to value 6 nice value 界面类似于 y yaml load
如何使用 Mysql Python 连接器检索二进制数据？

如果我在 MySQL 中创建一个包含二进制数据的简单表 CREATE TABLE foo bar binary 4 INSERT INTO foo bar VALUES UNHEX de12 然后尝试使用 MySQL Connector P
如何使用python在一个文件中写入多行

如果我知道要写多少行我就知道如何将多行写入一个文件但是当我想写多行时问题就出现了但是我不知道它们会是多少我正在开发一个应用程序它从网站上抓取并将结果的链接存储在文本文件中但是我们不知道它会回复多少行我的代码现在如下 r
Docker 中的 Python 日志记录

我正在 Ubuntu Web 服务器上的 Docker 容器中测试运行 python 脚本我正在尝试查找由 Python Logger 模块生成的日志文件下面是我的Python脚本 import time import logging
如何使用 pybrain 黑盒优化训练神经网络来处理监督数据集？

我玩了一下 pybrain 了解如何生成具有自定义架构的神经网络并使用反向传播算法将它们训练为监督数据集然而我对优化算法以及任务学习代理和环境的概念感到困惑例如我将如何实现一个神经网络例如 1 以使用 pybrain 遗传算法
Numpy - 根据表示一维的坐标向量的条件替换数组中的值

我有一个data多维数组最后一个是距离另一方面我有距离向量r 例如 Data np ones 20 30 100 r np linspace 10 50 100 最后我还有一个临界距离值列表称为r0 使得 r0 shape Dat
Jupyter Notebook 找不到 Python 模块

不知道发生了什么但每当我使用 ipython 氢原子或 jupyter 笔记本时都找不到任何已安装的模块我知道我安装了 pandas 但笔记本说找不到我应该补充一点当我正常运行脚本时 python script py 它确实导入
如何解决 PDFBox 没有 unicode 映射错误？

我有一个现有的 PDF 文件我想使用 python 脚本将其转换为 Excel 文件目前正在使用PDFBox 但是存在多个类似以下错误 org apache pdfbox pdmodel font PDType0Font toUnico
Django-tables2 列总计

我正在尝试使用此总结列中的所有值文档 https github com bradleyayers django tables2 blob master docs pages column headers and footers rst 但页
在 JavaScript 函数的 Django 模板中转义字符串参数

我有一个 JavaScript 函数它返回一组对象 return Func id name 例如我在传递包含引号的字符串时遇到问题 Dr Seuss ABC BOOk 是无效语法 I tried name safe 但无济于事有什么解

随机推荐

需要.Net 的公式解释器[关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi
当我们回来时，查看寻呼机片段状态寻呼机适配器出现白屏？

我已经使用 FragmentStatePagerAdapter 使用视图分页器来加载片段当我第一次来时它会工作但如果我从寻呼机适配器重定向到其他片段并返回它将显示空白屏幕 fragment community xml
如何获取默认的iOS浏览器名称？

Stack Overflow 应用程序检测到我越狱设置的默认浏览器 Chrome 的名称我怎样才能在 Objective C 和 Swift 中实现同样的目标只是名称不是 ActivityView 代码 Example Update
登录 python + mod_wsgi 应用程序

我在 apache 服务器上部署了一个 python Flask 应用程序这是我的abc conf file WSGIDaemonProcess voting app threads 5 WSGIScriptAlias election
为什么 new()/delete() 比 malloc()/free() 慢？

为什么new delete 比malloc free 慢 EDIT 感谢到目前为止的回答如果您有new 和delete 的标准C 实现规范请指出谢谢看一下这段C代码 struct data pd malloc sizeof stru
PostgreSQL 9.3 触发器函数插入带有参数化名称的表

我正在尝试在 Postgres 中动态分区日志条目我有 53 个子表 1 个代表每周的日志条目并且希望使用触发器将 INSERT 路由到子表我运行该函数INSERT INTO log5 VALUES NEW 并且它有效我用以下命令运
在 IISNode 上运行的 Azure Node.js 应用程序中未定义端口

我有一个使用 IISNode 运行 Node js 应用程序的 Azure 应用服务问题是process env PORT未定义我读过 IISNode 使用一个叫做命名管道并且端口信息可能不容易读取但就我而言我只是未定义我尝试部署
HK2 MethodInterceptor 与 Jersey 资源

如何设置aopMethodInterceptor使用泽西岛资源这是我尝试过的如下this https hk2 java net 2 2 0 aop example html文档第 1 步拦截服务 public class MyInt
Linux 的 gcc __attribute__((selectany)) 替代方案？

我想知道是否有替代方案 attribute selectany 在Linux中我想定义这样的东西 char a qwe zxc 并将其包含在许多链接在一起的 c 文件中因此链接器将看到 a 的多个定义因此不会链接我读过这个属性 se
更改 WooCommerce 购物车和结帐页面中的“运输”文本：[重复]

这个问题在这里已经有答案了我正在将 WooCommerce 与 Storefront 主题一起使用并且我正在尝试更改这个词船运在带有总计的购物篮页面上我在这里找到了一些建议 https kriesi at support topi
iOS后台Location不发送http请求

我的应用程序需要在后台跟踪用户位置但无法发送获取请求当应用程序到达前台时 http 请求会立即发送我正在使用 RestKit 来处理所有网络请求并且遵循本教程 http www mindsizzlers com 2011 07
Google Cloud Platform：将上传的 MP4 文件转换为 HLS 文件

我正在构建一个平台允许用户将一些视频文件 20 40 秒从手机上传到服务器所有这些上传目前都运行良好文件通过nodejs云功能存储在谷歌存储桶中现在我想创建一个 gcp 转码器作业它将上传的 mp4 视频文件转换为 hls 视频
在 ASP.NET MVC3 中，应该如何呈现由多个模型支持的多个 PartialView？

在 MVC3 Razor 中如何创建具有多个表单的页面以便每个表单都是使用自己的模型渲染的部分视图我们一直在尝试各种形式的调用 Html RenderPartial 传入部分视图名称以及我们通过 ViewBag 访问的模型实例但我们
VBA添加图表标题

我只想使用 vba 将图表标题添加到我的图表中我实际上想对每张纸中的每个图表递归地执行此操作但我什至无法让 1 个图表工作这是我的代码 Dim chnam chnam Left ActiveSheet Name Len ActiveS
多维数组上的数组合并

要么我是瞎子要么我在任何地方都找不到这个问题昨天我在合并数组时遇到了问题我可以在 SO 的帮助下解决这个问题今天我再次遇到了合并数组的问题但这一次是多维数组我有一个数组 usergroup groups 和一个数组 userg
在特定时间启动应用程序

我想知道是否有可能以及如何在特定时间启动我的应用程序就像在特定时间响起的闹钟一样假设我希望我的应用程序在早上 8 点启动这可行吗您可以使用 AlarmManager 来完成此操作这是一个简短的示例首先你需要设置闹钟 Alar
SSL 到底如何工作？

SSL 是如何工作的证书安装在客户端或浏览器和服务器或Web服务器的哪里当您在浏览器中输入 URL 并从服务器获取页面时信任加密身份验证过程如何启动 HTTPS协议如何识别证书当证书负责所有信任加密身份验证工作时为
如何在打字稿订阅功能之外获取价值

我对某些服务有以下订阅功能 this sub this route params subscribe params gt this id params id this someService thisById this id subscri
* 对于结构体来说是非法的吗？

我尝试编译以下代码但编译器不会执行此操作因为对于结构来说是非法的这是真的吗 struct String int length int capacity unsigned check char ptr 0 String void ma
抓取多个帐户，即多次登录

我可以成功抓取单个帐户的数据我想在一个网站上抓取多个帐户这意味着多次登录如何管理登录注销您可以在每个帐户会话中使用多个 cookiejar 并行抓取多个帐户请参阅 cookiejar 请求元密钥http doc scrapy o

抓取多个帐户，即多次登录

抓取多个帐户，即多次登录 的相关文章

随机推荐

热门标签

抓取多个帐户，即多次登录的相关文章