scrapy中403错误的解决方法

2024-02-09

我是 scrapy 的新手，我制作了 scrapy 项目来废弃数据。

我正在尝试从网站上抓取数据，但收到以下错误日志

2016-08-29 14:07:57 [scrapy] INFO: Enabled item pipelines:
[]
2016-08-29 13:55:03 [scrapy] INFO: Spider opened
2016-08-29 13:55:03 [scrapy] INFO: Crawled 0 pages (at 0 pages/min),scraped 0 items (at 0 items/min)
2016-08-29 13:55:04 [scrapy] DEBUG: Crawled (403) <GET http://www.justdial.com/robots.txt> (referer: None)
2016-08-29 13:55:04 [scrapy] DEBUG: Crawled (403) <GET http://www.justdial.com/Mumbai/small-business> (referer: None)
2016-08-29 13:55:04 [scrapy] DEBUG: Ignoring response <403 http://www.justdial.com/Mumbai/small-business>: HTTP status code is not handled or not allowed
2016-08-29 13:55:04 [scrapy] INFO: Closing spider (finished)

我尝试在网站控制台上执行以下命令，然后得到响应，但是当我在 python 脚本中使用相同的路径时，我收到了上面描述的错误。

Web 控制台上的命令：

$x('//div[@class="col-sm-5 col-xs-8 store-details sp-detail paddingR0"]/h4/span/a/text()')
$x('//div[@class="col-sm-5 col-xs-8 store-details sp-detail paddingR0"]/p[@class="contact-info"]/span/a/text()')

请帮我。

Thanks

就像 Avihoo Mamka 在评论中提到的那样，您需要提供一些额外的请求标头，以免被该网站拒绝。

在这种情况下，它似乎只是User-Agent标头。默认情况下，scrapy 通过用户代理来标识自己"Scrapy/{version}(+http://scrapy.org)"。有些网站可能会出于某种原因拒绝这一点。

为了避免这种情况只需设置headers你的参数Request使用通用用户代理字符串：

headers = {'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64; rv:48.0) Gecko/20100101 Firefox/48.0'}
yield Request(url, headers=headers)

你可以找到一个巨大的用户代理列表在这里 http://www.useragentstring.com/pages/useragentstring.php，但您应该坚持使用流行的网络浏览器，例如 Firefox、Chrome 等，以获得最佳结果

你可以实现它来与你的蜘蛛一起工作start_urls too:

class MySpider(scrapy.Spider):
    name = "myspider"
    start_urls = (
        'http://scrapy.org',
    )

    def start_requests(self):
        headers= {'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64; rv:48.0) Gecko/20100101 Firefox/48.0'}
        for url in self.start_urls:
            yield Request(url, headers=headers)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python27

Scrapy

scrapy中403错误的解决方法的相关文章

如果包含字符串，pandas 重命名列

我想遍历数据框中的所有列并重命名或映射列如果它们包含某些字符串例如将包含 agriculture 的所有列重命名为字符串 agri 我正在考虑使用rename and str contains但不知道如何将它们结合起来以实现我想
如何将one-hot向量转换为多标签？

我有一项多分类任务并且我得到了像这样的单热类型预测 0 1 1 0 1 0 1 0 1 我希望将这个单热向量转换为标签例如 1 2 1 0 2 我已经尝试过 tf argmax 但它不起作用那么我该如何处理呢使用列表理解 oheLi
克隆代码更改在开发站点中不可见

我对克隆很陌生我在 eclipse 中有一个项目文件夹我是从cvs项目导入的我有 zope 作为服务器我启动 zope bin instance restart 当我在文件夹中进行更改时我无法在开发网站中看到更改我似乎无法发现发
无法安装时间模块

我试过了pip install time and sudo H pip install time 但我不断收到错误找不到满足要求时间的版本从版本未找到时间匹配的发行版我正在 PyCharm 中工作但真正没有意义的是我可以在 Py
scrapy python 请求未定义

我在这里找到了答案 code for site in sites Link site xpath a href extract CompleteLink urlparse urljoin response url Link yield Re
python 2.7.6 if/elif/else 语句中的 isupper 函数

我需要 str isupper 函数的帮助我试图在 if elif else 语句中使用它程序是这样的 String raw input Please enter a string if String 1 isupper print T
Scrapy 未通过请求回调从项目中的已抓取链接返回附加信息

基本上下面的代码会抓取表格的前 5 项其中一个字段是另一个 href 单击该 href 会提供更多信息我想收集这些信息并将其添加到原始项目中所以parse应该将半填充的项目传递给parse next page然后刮掉下一位并返回完成
Scrapy 仅抓取每个页面的第一个结果

我目前正在尝试运行以下代码但它只保留每个页面的第一个结果知道可能是什么问题吗 from scrapy contrib spiders import CrawlSpider Rule from scrapy contrib linkext
Docx 缺少属性

我正在尝试使用 python 中的 docx 库来考虑 word 文档问题是无论我导入什么我都会收到有关无属性的错误消息例如文档 from docx import Document 给出输出 cannot import nam
如何将 numpy rearray 的子集转换为连续数组？

我有一个recarray来自读取 csv 文件我有兴趣将列的子集转换为连续浮点数组我想避免将它们转换为列表或将它们一一堆叠我尝试了中的建议https stackoverflow com a 11792956 https stackov
pip.main 安装失败，“模块”对象没有属性“main”

我正在尝试从 python 脚本中安装一些 python 包并且我正在使用pip main install 为了那个原因下面是代码片段 try import requests except import pip pip main ins
python 中的 exec 关键字有什么作用？

code compile a 1 2
使用 Python 和 Google App Engine 的 Cookie

我正在 Google App Engine 上开发一个应用程序但遇到了问题我想向每个用户会话添加一个 cookie 以便我能够区分当前用户我希望他们都是匿名的因此我不需要登录因此我为 cookie 实现了以下代码 def cle
Scrapy - 使用 TwistedScheduler 时出现 ReactorAlreadyInstalledError

我有以下 Python 代码来启动 APScheduler TwistedScheduler cronjob 来启动蜘蛛使用一只蜘蛛不是问题而且效果很好然而使用两个蜘蛛会导致错误 twisted internet error Rea
在 Mac OS X 上安装 libxml2 时出现问题

我正在尝试在我的 Mac 操作系统 10 6 4 上安装 libxml2 我实际上正在尝试在 Python 中运行 Scrapy 脚本这需要我安装 Twisted Zope 现在还需要安装 libxml2 我已经下载了最新版本 2 7 7
pygame：使用 sprite.RenderPlain 绘制精灵组的顺序

我有一个精灵组需要按一定的顺序绘制以便其精灵按应有的方式重叠然而即使使用运算符模块函数 sorted self sprites key attrgetter y x 对组进行排序顺序也是错误的我该如何解决这个问题直截了当地说
如何使用Python保存“完整的网页”而不仅仅是基本的html

我正在使用以下代码来使用 Python 保存网页 import urllib import sys from bs4 import BeautifulSoup url http www vodafone de privat tarife r
我可以在我的机器上同时安装 python 2.7 和 3.5 的tensorflow吗？

目前我通过 Anaconda 在我的机器 MAC OX 上安装了 Python 2 7 Python 3 5 Tensorflow for Python 3 5 我也想在我的机器上安装 Tensorflow for Python 2 7 当
Python：返回 // 正则表达式之间的字符串[重复]

这个问题在这里已经有答案了我仍然不明白正则表达式我阅读了文档但是在我想出了正则表达式字符之后那么如何使用它们呢例如我只想返回前两个斜杠之间的任何内容 en lemon peel n ca llimona n is 的输出应该是
使用 subprocess.Popen() 或 subprocess.check_call() 时程序卡住

我想从 python 运行一个程序并找到它的内存使用情况为此我正在使用 l a out lt in txt gt out txt p subprocess Popen l shell False stdout subprocess PI

随机推荐

不使用指针迭代 C 风格数组

我正在学习指针算术并且有一段代码在相当长的一段时间内给我带来了错误任何帮助将不胜感激我找不到它 int arr 1 2 3 4 5 for int i 0 i lt 5 i cout lt lt arr arr cout lt lt
匹配标准 10 位电话号码的正则表达式

我想为支持以下格式的标准美国电话号码编写正则表达式其中表示任意数字到目前为止我想出了以下表达方式 1 9 d 2 d 3 d 4 d 3 s d 3 d 4 1 9 d 2 s d 3 s d 4 1 9 d 2 d 3 d 4 分别
在Python中初始化固定大小的数组[重复]

这个问题在这里已经有答案了我想知道如何初始化一个数组或列表尚未填充值以具有定义的大小例如在 C 中 int x 5 declared without adding elements 我如何在 Python 中做到这一点您可以使用
给定组合时如何计算索引（字典顺序）

我知道有一种算法允许给定数字组合无重复无顺序计算字典顺序的索引这对于我的应用程序加快速度非常有用例如 combination 10 5 1 1 2 3 4 5 2 1 2 3 4 6 3 1 2 3 4 7 251 5 7 8 9
Ember 数据模型重新加载导致 {{each}} 中的项目被删除/插入回来 - 丢失当前状态

我怎样才能防止itemView在迭代控制器时被删除并重新渲染回原位arrangedContent 如果观察到的模型的属性没有改变值下面是使用博客文章的简短版本App Post作为示例模型控制器 sortProperties create
使用“C”执行 API 将 sqlite3 表导出到文件中

我在 fedora 14 中使用 sqlite3 版本 3 6 23 1 我可以使用这样的命令提示符将表导出到文件中 sqlite3 data db sqlite gt output sample txt sqlite gt select
如何使 TeamCity 构建出现在 TFS 构建资源管理器中？

我们使用 TFS 2010 进行源代码控制和项目管理使用 TeamCity 6 0 执行构建和构建报告测试人员的 CI 和日常部署在 TeamCity 中设置 TFS 源标签以匹配内部版本号非常简单但我找不到将其链接回 TFS Bu
使用 osmosis 将 POSTGIS 表转换为 .OSM

我正在使用 osmosis 0 42 和 PostGIS 2 0 1 并且我正在尝试将一些 postGIS 表导出到 OSM xml 文件我使用 read pgsql 命令从 postgis 读取而不是 read apidb 因为它在连
自我类型和特质子类有什么区别？

特质的自我类型A trait B trait A this B gt 说 A不能混合到一个不扩展的具体类中B 另一方面如下 trait B trait A extends B 说任何具体或抽象类混合A也会混入B 这两个说法不是说的是
如何基于一个 xcode 项目构建精简版和完整版 iPhone 应用程序？

我不想维护两套代码我只需要限制 Lite 版本中的一些功能并在其上添加一些广告即可怎么做创建多个目标您可以通过右键单击目标并选择获取信息来改变构建配置从那里你可以做一些事情比如改变Info plist文件它正在查看执行诸如将
我们可以在 PWA 应用程序中使用 SQLite 数据库吗

我正在创建渐进式网络应用程序应用程序我想将用户信息存储在本地设备中那么我该如何做到这一点如何存储用户登录信息以便他不必一次又一次登录浏览器没有 SQLite 您可以使用更接近的方法索引数据库 https caniuse com
asm编译器中的二进制表达式

我正在尝试使用逻辑和符号执行 if 语句这是我想要做的 asm字节码中的 y堆栈具有值0和1 我想得到结果在我们的例子中逻辑与不会出现在 if 语句中我已经尝试过 Opcodes IFEQ 和 Opcodes IFNE 指令但
Chain animator设置 android 动画

对于android新手我想做一些流畅的动画我的设备上有一个包含效果的文件每个效果都是一个动画该文件告诉我何时播放效果以及效果持续时间问题是我无法链接 animatorSet dynmacily AnimatorSet mainAn
限制使用 git log --decorate 显示的引用

我目前使用的主存储库有 3 个标准遥控器本地备份我的开发合作伙伴的工作站和托管存储库我们有 3 或 4 个分支大部分时间都处于活动状态其中一个是 master 我全天定期监控分支机构使用 git log graph oneline
jquery 摇动效果和 margin-auto

有一点烦恼这个震动效果示例 http jsfiddle net PHPsycho mwVkm 1 在 Firefox 中如果我省略该行 this css margin left this position left 然后该框会向左移动而不
` throw 'foo'` 、 ` throw Error('foo')` 、 `throw new Error('foo')` 之间有什么区别？

我见过 3 种在 JavaScript 中引发错误的不同方式 throw message throw Error message throw new Error message 它们之间有什么区别注意我知道类似的问题 1 https s
读取字节数限制

Does fread一次可以读取的字节数有限制吗或者我可以读取我想要添加到指针中的任何尺寸例如我可以使用fread读取一次50MB的文件并将其装入char指针吗理论上是的它可以读取任意数量的字节最多可达size t 这是一个u
如何使用 C++ 在 OS X 中打开“打开文件”对话框？

我正在开发一个使用 OpenGL 和 C 的应用程序该应用程序解析文件中的一些结构化输入并以图形方式显示它我想在应用程序加载时启动一个打开文件对话框以允许用户选择他们想要显示的文件我无法在网络上找到我需要的东西有没有办法在 C
无法在 C# 中访问 Amazon SQS 消息属性

我有一个进程创建 SQS 消息并将它们放置在 SQS 队列中另一个进程读取这些消息并根据消息正文的内容和属性执行某些逻辑我可以在 SQS 队列上成功创建一条带有正文和属性的消息但在读回消息属性时遇到问题我确信我的消息创建过程是正确的
scrapy中403错误的解决方法

我是 scrapy 的新手我制作了 scrapy 项目来废弃数据我正在尝试从网站上抓取数据但收到以下错误日志 2016 08 29 14 07 57 scrapy INFO Enabled item pipelines 2016 08

scrapy中403错误的解决方法

scrapy中403错误的解决方法 的相关文章

随机推荐

热门标签

scrapy中403错误的解决方法的相关文章