错误 403：scrapy 中未处理或不允许 HTTP 状态代码

2023-11-23

这是我为抓取 justdial 网站而编写的代码。

import scrapy
from scrapy.http.request import Request

class JustdialSpider(scrapy.Spider):
    name = 'justdial'
    # handle_httpstatus_list = [400]
    # headers={'User-Agent': "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/22.0.1207.1 Safari/537.1"}
    # handle_httpstatus_list = [403, 404]
    allowed_domains = ['justdial.com']
    start_urls = ['https://www.justdial.com/Delhi-NCR/Chemists/page-1']
    # def  start_requests(self):
    #     # hdef start_requests(self):
    #     headers= {'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64; rv:48.0) Gecko/20100101 Firefox/48.0'}
    #     for url in self.start_urls:
    #         self.log("I just visited :---------------------------------- "+url)
    #         yield Request(url, headers=headers)
    def parse(self,response):
        self.log("I just visited the site:---------------------------------------------- "+response.url)
         urls = response.xpath('//a/@href').extract()
         self.log("Urls-------: "+str(urls))

这是终端中显示的错误：

2017-08-18 18:32:25 [scrapy.core.engine] INFO: Spider opened
2017-08-18 18:32:25 [scrapy.extensions.logstats] INFO: Crawled 0 pages (at 0 pag
es/min), scraped 0 items (at 0 items/min)
2017-08-18 18:32:25 [scrapy.extensions.httpcache] DEBUG: Using filesystem cache
storage in D:\scrapy\justdial\.scrapy\httpcache
2017-08-18 18:32:25 [scrapy.extensions.telnet] DEBUG: Telnet console listening o
n 127.0.0.1:6023
2017-08-18 18:32:25 [scrapy.core.engine] DEBUG: Crawled (403) <GET https://www.j
ustdial.com/robots.txt> (referer: None) ['cached']
2017-08-18 18:32:25 [scrapy.core.engine] DEBUG: Crawled (403) <GET https://www.j
ustdial.com/Delhi-NCR/Chemists/page-1> (referer: None) ['cached']
2017-08-18 18:32:25 [scrapy.spidermiddlewares.httperror] INFO: Ignoring response
 <403 https://www.justdial.com/Delhi-NCR/Chemists/page-1>: HTTP status code is n
ot handled or not allowed

我在 stackoverflow 上看到了类似的问题，我尝试了所有类似的方法，您可以在带有注释的代码中看到我尝试过的内容，

更改用户代理
设置handle_httpstatus_list = [400]

注意：这个（https://www.justdial.com/Delhi-NCR/Chemists/page-1）网站甚至没有在我的系统中被阻止。当我在 chrome/mozilla 中打开网站时，它正在打开。这与 (https://www.practo.com/bangalore#doctor-search）站点也。

当您使用user_agent蜘蛛属性，开始发挥作用。可能设置请求标头是不够的，因为它会被默认的用户代理字符串覆盖。所以设置spider属性

user_agent = "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/22.0.1207.1 Safari/537.1"

（与你设置的方式相同start_urls）并尝试一下。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

http

Scrapy

错误 403：scrapy 中未处理或不允许 HTTP 状态代码的相关文章

使用 python 进行串行数据记录

Intro 我需要编写一个小程序来实时读取串行数据并将其写入文本文件我在读取数据方面取得了一些进展但尚未成功地将这些信息存储在新文件中这是我的代码 from future import print function import se
我怎样才能更多地了解Python的内部原理？ [关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案我使用Python编程已经有半年多了我对Python内部更感兴趣而不是使用Python开发应用程序
pydev 调试器：严重警告：此版本的 python 似乎编译不正确（内部生成的文件名不是绝对的）[重复]

这个问题在这里已经有答案了通过运行 from sklearn datasets import fetch california housing import pandas as pd pd set option precision 4 m
如何迭代按值排序的 Python 字典？

我有一本字典比如 a 6 b 1 c 2 我想迭代一下by value 不是通过键换句话说 b 1 c 2 a 6 最直接的方法是什么 sorted dictionary items key lambda x x 1 对于那些讨厌 la
python 模拟第三方模块

我正在尝试测试一些处理推文的类我使用 Sixohsix twitter 来处理 Twitter API 我有一个类充当 Twitter 类的外观我的想法是模拟实际的 Sixohsix 类通过随机生成新推文或从数据库检索它们来模拟推文的
从 ffmpeg 获取实时输出以在进度条中使用（PyQt4，stdout）

我已经查看了很多问题但仍然无法完全弄清楚我正在使用 PyQt 并且希望能够运行ffmpeg i file mp4 file avi并获取流式输出以便我可以创建进度条我看过这些问题 ffmpeg可以显示进度条吗 https stack
通过列表理解压平列表列表

我正在尝试使用 python 中的列表理解来展平列表我的清单有点像 1 2 3 4 5 6 7 8 只是为了打印这个列表列表中的单个项目我编写了这个函数 def flat listoflist for item in listoflis
if 语句未命中中的 continue 断点

在下面的代码中两者a and b是生成器函数的输出并且可以评估为None或者有一个值 def testBehaviour self a None b 5 while True if not a or not b continue pri
对图像块进行多重处理

我有一个函数必须循环遍历图像的各个像素并计算一些几何形状此函数需要很长时间才能运行在 24 兆像素图像上大约需要 5 小时但似乎应该很容易在多个内核上并行运行然而我一生都找不到一个有据可查解释充分的例子来使用 Multiproc
Numpy 过滤器平滑零区域

我有一个 0 及更大整数的 2D numpy 数组其中值代表区域标签例如 array 9 9 9 0 0 0 0 1 1 1 9 9 9 9 0 7 1 1 1 1 9 9 9 9 0 2 2 1 1 1 9 9 9 8 0 2 2 1
将 matplotlib 颜色图集中在特定值上

我正在使用 matplotlib 颜色图 seismic 绘制绘图并且希望白色以 0 为中心当我在不进行任何更改的情况下运行脚本时白色从 0 下降到 10 我尝试设置 vmin 50 vmax 50 但在这种情况下我完全失去了白色关
如何使用列表作为pandas数据框中的值？

我有一个数据框需要列的子集包含具有多个值的条目下面是一个带有运行时列的数据框其中包含程序在各种条件下的运行时 df condition a runtimes 1 1 5 2 condition b runtimes 0 5 0 7
无法在 osx-arm64 上安装 Python 3.7

我正在尝试使用 Conda 创建一个带有 Python 3 7 的新环境例如 conda create n qnn python 3 7 我收到以下错误 Collecting package metadata current repoda
使用 NumPy 将非均匀数据从文件读取到数组中

假设我有一个如下所示的文本文件 33 346 1223 10 23 11 23 12 23 13 23 14 23 15 23 16 24 10 24 11 24 12 24 13 24 14 24 15 24 16 25 14 25 15
使用yield 进行字典理解

作为一个人为的例子 myset set a b c d mydict item yield join item s for item in myset and list mydict gives as cs bs ds a None b N
您可以将操作直接应用于map/reduce/filter 中的参数吗？

map and filter通常可以与列表理解互换但是reduce并不那么容易被交换map and filter 此外在某些情况下我仍然更喜欢函数语法但是当您需要对参数本身进行操作时我发现自己正在经历语法体操最终必须编写整个函数
Elastic Beanstalk 中的 enum34 问题

我正在尝试在 Elastic Beanstalk 中设置 django 环境当我尝试通过requirements txt 文件安装时我遇到了python3 6 问题 File opt python run venv bin pip li
检查字典键是否有空值

我有以下字典 dict1 city name yass region zipcode phone address tehsil planet mars 我正在尝试创建一个基于 dict1 的新字典但是它不会包含带有空字符串的键它不会包
从 Twitter API 2.0 获取 user.fields 时出现问题

我想从 Twitter API 2 0 端点加载推文并尝试获取标准字段作者文本和一些扩展字段尤其是用户字段端点和参数的定义工作没有错误在生成的 json 中我只找到标准字段但没有找到所需的 user fields 用户
迭代 pandas 数据框的最快方法？

如何运行数据框并仅返回满足特定条件的行必须在之前的行和列上测试此条件例如 1 2 3 4 1 1 1999 4 2 4 5 1 2 1999 5 2 3 3 1 3 1999 5 2 3 8 1 4 1999 6 4 2 6 1 5 1

随机推荐

wymeditor 无法保存插入的 iframe

Wym编辑器 http wymeditor org 总是删除插入的 iframe 的内容所以我无法将 vimeo 播放器块添加到我的页面我怎样才能避免它问候阿列克谢扎哈罗夫 Since 2011 年 5 月 31 日 WYMedi
Windows 上 MBCS 和 UTF-8 的区别

我正在阅读有关 Windows 上的字符集和编码的信息我注意到 Visual Studio 编译器针对 C 中有两个编译器标志称为 MBCS 和 UNICODE 它们之间有什么区别我不明白的是 UTF 8 在概念上与 MBCS 编码
在 HTML5 canvas 元素内移动矩形（像素）区域的最快方法是什么

我想实现 HTML5 canvas 元素内容的垂直滚动我不想再次渲染整个内容相反我想将整个内容向下向上移动并仅渲染已滚动到视图中的区域我尝试过getImageData and putImageData函数但在我的测试中它们几乎
linux中有类似COM0COM这样的程序吗？ [关闭]

Closed 此问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南目前不接受答案我在Windows中使用com0com进行程序测试 linux下有没有类似com0com的程序我知道有 pts ptmx 但我想要的是一个独立的程
Google 地球与 Google 地图 API v3 集成了吗？

我正在尝试将 Google 地球集成到 Google 地图中我发现它是possible在 v2 中但我找不到任何关于如何使用 v3 执行此操作的文档不幸的是这尚未在 Google Maps API v3 中实现请参阅相应的tick
groupByKey 是否比 reduceByKey 更受青睐

我总是用reduceByKey当我需要对 RDD 中的数据进行分组时因为它在打乱数据之前执行映射端缩减这通常意味着更少的数据被打乱从而获得更好的性能即使当map端reduce函数收集了所有值并且没有实际减少数据量时我仍然使用red
在（据称）高性能代码中使用 GetCurrentMethod

出于记录目的我们应用程序中的一些方法包括以下行 Dim Log As ILog GetLog Reflection MethodBase GetCurrentMethod DeclaringType 我对反思有一种可以说是非理性的恐惧我
如何从java调用C#函数[重复]

这个问题在这里已经有答案了我需要从 java 调用 C 函数为此我创建了以下内容我创建了一个java头文件Authenticator h 代码如下 include
循环遍历数组并成对输出（每个第二个元素的分隔符）

我有一个包含匿名元素的数组元素通过 php 添加到数组中如下所示 playlist array while databaseloop playlist a title playlist a length echo json encode
通用集合中的记录相等性

假设您有一条带有重载相等运算符的记录 TSomeRecord record Value String class operator Equal Left Right TSomeRecord Boolean end 实现比较字符串值如果根据
Linux中每个进程的最大线程数

我编写了一个简单的程序来计算Linux Centos 5 中一个进程可以拥有的最大线程数这是代码 int main pthread t thrd 400 for int i 0 i lt 400 i int err pthread cre
NuGet 包引用复制 dll 本地

我需要将 NuGet dll 的 Copy Local 设置为 false 在此之前我使用了包配置格式一切正常迁移到后封装参考格式我找不到如何做到这一点的方法有人可以帮助我吗您可以使用私有资产从文档复制
使用 Hibernate API 进行 Java 字符串日期验证

我正在尝试验证字符串日期 using javax validation 休眠验证我需要检查给定的字符串日期应该是过去的并且它应该是正确的yyyyMMdd具有所有限制的格式例如闰年 30th 31st day public class U
如何捕获鼠标移动事件

我想在我的主窗体中捕获鼠标移动事件虽然我能够连接MouseEventHandler对于主窗体当光标位于 UserControl 或任何其他控件上时该事件不再触发如何确保我始终掌握鼠标位置您可以使用低级鼠标钩看this示例并检查
使用 ctypes 传递数组

我有一个C函数 void read FIFO AI0 int16 t input size t size NiFpga Session session NiFpga Status status input int16 t malloc si
如何使用 SWIG 扩展 python 中的模板化 C++ 类以允许 [] 运算符

我有一个模板化的 C 数组类它使用标准向量类 include
向量点积计算的时间和空间复杂度

计算两个长度为 n 的向量之间的点积的算法的时间和空间复杂度是多少如果这 2 个向量是a a1 a2 an and b b1 b2 bn then 点积由下式给出a b a1 b1 a2 b2 an bn 为了计算这个我们必须执行n乘法
设置 tk.Frame 宽度和高度

所以我正在创建一个 GUI 并尝试使其一切都适合屏幕我已经画出了我希望 GUI 的每个部分的外观及其大小的粗略草图因此我知道所有内容的粗略尺寸然而我遇到的第一个问题是设置屏幕的左半部分所以左半部分由一个框架组成我们称之为Main
如何替换已弃用的 ggplot2 函数 aes_string：接受任意数量的命名字符串来指定美学映射？

aes string我在使用 ggplot2 编程时使用了一些方便的行为但aes string已被弃用我相信是从 ggplot2 版本 3 4 0 开始我正在努力思考如何很好地替换它具体来说我之前创建了通过省略号接受任意字符串参数
错误 403：scrapy 中未处理或不允许 HTTP 状态代码

这是我为抓取 justdial 网站而编写的代码 import scrapy from scrapy http request import Request class JustdialSpider scrapy Spider name j

错误 403：scrapy 中未处理或不允许 HTTP 状态代码

错误 403：scrapy 中未处理或不允许 HTTP 状态代码 的相关文章

随机推荐

热门标签

错误 403：scrapy 中未处理或不允许 HTTP 状态代码的相关文章