scrapy中cookies的正确使用形式是什么

2024-06-26

我是个新手，我正在一个使用cookies的网络中使用scrapy，这对我来说是一个问题，因为我可以在没有cookies的网络上获取数据，但在有cookies的网络上获取数据对我来说很困难。我有这个代码结构

class mySpider(BaseSpider):
    name='data'
    allowed_domains =[]
    start_urls =["http://...."]

def parse(self, response):
    sel = HtmlXPathSelector(response)
    items = sel.xpath('//*[@id=..............')

    vlrs =[]

    for item in items:
        myItem['img'] = item.xpath('....').extract()
        yield myItem

这很好，我可以使用这个代码结构在没有cookie的情况下获得很好的数据我发现它是因为我可以在这个 url 中使用 cookie，但我不明白应该将此代码放在哪里，然后才能使用 xpath 获取数据

我正在测试这段代码

request_with_cookies = Request(url="http://...",cookies={'country': 'UY'})

但我不知道我可以工作或把这段代码放在哪里，我将此代码放入函数解析中，以获取数据

def parse(self, response):
    request_with_cookies = Request(url="http://.....",cookies={'country':'UY'})

    sel = HtmlXPathSelector(request_with_cookies)
    print request_with_cookies

我尝试将 XPath 与带有 cookies 的新 url 一起使用，以便稍后打印这个新的数据抓取我认为这就像使用没有 cookie 的 url 但是当我运行这个时，我遇到了一个错误，因为“Request”对象没有属性“body_as_unicode” 处理这些cookies的正确方法是什么，我有点迷失了非常感谢。

你们非常接近！ parse() 方法的约定是：yields（或返回一个可迭代对象）Items, Requests，或两者的混合。就你而言，你所要做的就是

yield request_with_cookies

并且您的 parse() 方法将再次运行Response使用这些 cookie 请求该 URL 时生成的对象。

http://doc.scrapy.org/en/latest/topics/spiders.html?highlight=parse#scrapy.spider.Spider.parse http://doc.scrapy.org/en/latest/topics/spiders.html?highlight=parse#scrapy.spider.Spider.parse http://doc.scrapy.org/en/latest/topics/request-response.html http://doc.scrapy.org/en/latest/topics/request-response.html

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

scrapy中cookies的正确使用形式是什么的相关文章

当遵循文档代码时，Python 多处理返回 AttributeError [重复]

这个问题在这里已经有答案了我决定尝试使用多处理器模块来帮助加速我的程序为了弄清楚这一点我尝试使用有关多处理的官方 python 文档中的一些代码示例第一次尝试介绍 https docs python org 3 library m
创建一个支持 json 序列化的类以与 Celery 一起使用

我正在使用 Celery 来运行一些后台任务其中一项任务返回我创建的 python 类考虑到有关使用 pickle 的警告我想使用 json 来序列化和反序列化此类有没有一种简单的内置方法可以实现这一目标该类非常简单它包含 3
我如何知道Python的unicode函数识别的所有支持的编码

Python 有一个unicode将字节流转换为 unicode 字符串的内置函数我只是希望我能查询所有可用的encoding在我的系统上但如何这个问题的原因是有人使用 MAC OS X 向我发送了一封内容编码为 iso 2022
获取父类名？ [复制]

这个问题在这里已经有答案了 class A object def get class self return self class class B A def init self A init self b B print b get cl
为什么Flask后台线程获取错误的数据库信息？

为了将实时数据库信息推送到客户端我在服务器端使用flask socketio 通过使用websocket将所有实时数据库信息推送到客户端我的视图文件有一个片段 from models import Host from flask soc
并行执行按位运算的代码

我有这段代码通过将该 AU 矩阵的每个字节 8 个元素打包到 A 中来减少内存消耗从而使 100k 200k 矩阵占用更少的空间正如您所期望的这段代码需要永远运行我也计划将行数增加到 200k 我正在一个非常强大的实例 CPU 和
在 Python 中解压存档时出现错误

我使用 Python 下载 bz2 文件然后我想使用以下方法解压存档 def unpack file dir file cwd os getcwd os chdir dir print Unpacking file s file cmd
[Python]比较两个 zip 文件的函数，一个位于 FTP 目录中，另一个位于我的本地计算机上

我在创建比较两个 zip 文件的函数时遇到问题如果它们相同而不仅仅是名称相同这是我的代码示例 def validate zip files self host 192 168 0 1 port 2323 username 123 pa
如何向 Jupyter (ipython) 笔记本自动添加扩展？

我已经安装了扩展 calico document tools 我可以使用以下命令从 Jupyter 笔记本中加载它 javascript IPython load extensions calico document tools 如何为每个
将列表列表替换为“压缩”列表列表，同时保持顺序

我有一个列表列表如我所附的代码所示如果有任何共同值我想链接每个子列表然后我想用列表的精简列表替换列表的列表例子如果我有一个清单 1 2 3 3 4 I want 1 2 3 4 如果我有 4 3 1 2 3 I want 4 3
使用 SQLAlchemy 查询 Pandas DataFrame 时重命名列

当您将数据查询到 pandas 数据帧时有没有办法保留 SqlAlchemy 属性名称这是我的数据库的简单映射对于 school 表我将数据库名称 SchoolDistrict 重命名为较短的 district 我从 DBA 中删除
基于 Pandas 中特殊字符分隔列中的每个项目进行聚合

我输入的数据如下 Date Investment Type Medium 1 1 2000 Mutual Fund Stocks Fixed Deposit Real Estate Own Online Through Agent 1 2
识别文本中的多个类别和相关情感

如果您有一个文本语料库如何识别所有类别来自预定义类别列表以及与之相关的情绪正面负面写作我将在 Python 中执行此操作但现阶段我不一定要寻找特定于语言的解决方案让我们用一个例子来看看这个问题试图澄清我的问题如果我有一整
构建wheel失败/“错误：INCLUDE环境变量为空”

我正在使用 Python 2 7 11 并尝试 pip install 模块但是其中一些模块失败了我收到的消息是无法为 X 构建轮子和错误包含环境变量为空我尝试安装 Scrapy LXML 和 Twisted 但都失败了我尝
如何循环遍历列表中除最后一项之外的所有项？ [复制]

这个问题在这里已经有答案了 Using a for循环如何循环遍历列表中除最后一项之外的所有项我想遍历一个列表检查每个项目与后面的项目我可以在不使用索引的情况下做到这一点吗 for x in y 1 If y是一个生成器那么上面的
Spacy-nightly (spacy 2.0) 问题“thinc.extra.MaxViolation 大小错误”

显然成功安装了 spacy nightly spacy nightly 2 0 0a14 和英语模型 en core web sm 后我在尝试运行它时仍然收到错误消息 import spacy nlp spacy load en core
matplotlib 后端 - 我关心吗？

gt gt gt import matplotlib gt gt gt print matplotlib rcsetup all backends u GTK u GTKAgg u GTKCairo u MacOSX u Qt4Agg u
用于监视文件夹和更新数据库的 Python 守护进程

这专门用于管理 MP3 文件但它应该可以轻松地适用于任何包含大量文件的目录结构我想找到或编写一个守护程序最好用Python 来监视一个包含许多子文件夹的文件夹这些子文件夹都应该包含X个MP3文件每当添加更新或删除文件时它都应该
Python pandas：向我的数据框中添加一列来计算变量

我有一个像这样的数据框 gt org group org1 1 org2 1 org3 2 org4 3 org5 3 org6 3 我想将列 count 添加到 gt 数据帧以计算组的成员数量预期结果如下 org group count
Python - 将列表作为参数传递给 SQL，以及更多变量

我试图在 python 3 6 中将未知数量的参数传递给 SQL Server 这是我使用 pypyodbc 的代码 cursor cnxn cursor theargs 1033286869 1053474957 1063654630 1

随机推荐

在不同的队列系列上重用相同的主机可见缓冲区

考虑主机可见缓冲区主要与流缓冲区相关即由VK MEMORY PROPERTY DEVICE LOCAL BIT VK MEMORY PROPERTY HOST VISIBLE BIT内存让我们想象一下以下使用模式将新数据写入主机上的
Android 中 Facebook 和 Google+ 登录的 onActivityResult 代码

Android 中登录的 Facebook API 代码很简单方法如下活动结果 is protected void onActivityResult int requestCode int resultCode Intent data s
Redis 与 SQL Server 性能对比

应用程序性能是使用缓存而不是关系数据库的主要原因之一因为它以键值对的形式将数据存储在内存中所以我们可以将经常访问的不经常更改的数据存储在缓存中从缓存中读取比从数据库中读取要快得多 Redis 是分布式缓存市场上最好的解决方案之一我正
如何在flutter中使用API调用嵌套的json数据？

我的 JSON 看起来像这样 Info c type id 1 cleaning type A Cleaning c type id 2 cleaning type B Cleaning c type id 3 cleaning type
如何融化数据框以获取范围内的所有日期？

我有一个这样的数据集 import pandas as pd pd DataFrame col1 1 2 start date 1 3 2019 1 10 2019 end date 1 5 2019 1 12 2019 我想为开始日期和结
ASP.NET MVC 2 - 请求编码问题

Hello 有一个控制器和一个通过 GET 接收一个参数的操作大致如下 www site com controller action query Problem 示例 1 www site com controller action qu
C++ 中输出流的右对齐

我正在使用 C 工作我得到一个 10 位数字的字符串字符数组其中可能有也可能没有 3 个破折号使其最多 13 个字符是否有一种内置的流方式可以正确地证明它我将如何打印到右对齐的流是否有内置函数方法可以执行此操作或者我是否需
关于相同的应用程序，但不同的应用程序商店有不同的二进制文件

我有一个新的应用程序要在不久的将来推出该应用程序将针对不同地区的应用程序商店提供不同的版本包括 UI 语言和部分应用程序内容我的问题是我是否可以创建不同的应用程序不同的捆绑包 ID 和不同的应用程序的 iTunes 应用程序名称但
如何理解javascript React中的这段代码

我在网上找到了这个函数在js中的实现这个函数递归地过滤一个对象数组每个对象可能有属性 children 它是对象数组并且对象也可能有孩子等等该函数工作正常但我有点不明白这是我的功能 getFilteredArray array
如何在 NPM 中通过 package.json 使用 gitlab 存储库

我正在开展一个内部项目想在小组内分享一个工具但如果我使用 npm 工具它要么请求模块已在 npm 网站或公共 git 存储库上注册我正在使用 gitlab 并且有一个私人令牌 git https gitlab ci token
在eclipse java项目中加载dll文件

我正在尝试添加文件sqljdbc auth dll到项目库我将包含 dll 的文件夹添加为外部类文件夹在这里我基本上尝试使用 Microsoft 提供的 SQL 驱动程序连接到我的 SQL SERVER 2008 数据库我的代码是
Postgres 9.3 JSON 输出多维对象

鉴于此查询 SELECT id as id attributes gt gt name as file name status from workflow events where schema customer and type FILE
如何更改 Android 模拟器中的屏幕方向？

我们如何将模拟器屏幕方向更改为横向或纵向 Ctrl F12 is the keyboard shortcut
带有单选框和复选框的 WinForms TreeView

我有一个情况我希望 TreeView 能够在多个根节点上显示单选按钮并在其子节点上显示复选框任何根节点下都只有一层子节点无线电也应该表现得像一个组即选择一个根并取消选择其他无线电我一直试图用图像来伪造它但它看起来不现实我最初
追踪 Haskell 中的错误

我如何获得有关 Haskell 错误发生位置的更多信息例如昨天我正在开发一个 Haskell 程序该程序解析输入文件转换数据然后打印出报告信息有一次我跑了 main 然后回来了 Prelude read parse error
整数 numpy 数组乘以浮点数

我有一个包含整数值的 numpy 数组如果我将整个矩阵乘以一个浮点数结果是一个浮点矩阵但如果我通过 for 循环逐列相乘它只给出整数部分 import numpy as np A np array 1 2 3 4 5 6 7 8 9
在 Eclipse 中从 C++ 调用 Ada

我正在尝试创建一个完全托管在 Eclipse 中以 C 启动并调用 Ada 的程序我已经加载了 GNATBench 并且可以毫无问题地运行 Ada 程序我不能做的是让 C 项目调用 Ada 项目经过一番搜寻我找到并使用 make
JavaScript 预分配数组未捕获 RangeError：数组长度无效

我有一个小循环的代码它抛出 Uncaught RangeError Invalid Array Length 我能够在 Google Chrome 控制台中重现它 const COUNT 100 000 000 const xValues
在 Pycharm 中使用 scikit-learn 未解析的属性引用“predict()”

当使用 scikit learn 中的决策树分类器时 docs http scikit learn org stable modules tree html展示您将存储分类器的变量重新分配给其自身的输出调用fit method clf t
scrapy中cookies的正确使用形式是什么

我是个新手我正在一个使用cookies的网络中使用scrapy 这对我来说是一个问题因为我可以在没有cookies的网络上获取数据但在有cookies的网络上获取数据对我来说很困难我有这个代码结构 class mySpider Ba

scrapy中cookies的正确使用形式是什么

scrapy中cookies的正确使用形式是什么 的相关文章

随机推荐

热门标签

scrapy中cookies的正确使用形式是什么的相关文章