Scrapy FakeUserAgentError：获取浏览器时发生错误

2024-05-12

我使用 Scrapy FakeUserAgent 并在我的 Linux 服务器上不断收到此错误。

Traceback (most recent call last):
  File "/usr/local/lib64/python2.7/site-packages/twisted/internet/defer.py", line 1299, in _inlineCallbacks
    result = g.send(result)
  File "/usr/local/lib/python2.7/site-packages/scrapy/core/downloader/middleware.py", line 37, in process_request
    response = yield method(request=request, spider=spider)
  File "/usr/local/lib/python2.7/site-packages/scrapy_fake_useragent/middleware.py", line 27, in process_request
    request.headers.setdefault('User-Agent', self.ua.random)
  File "/usr/local/lib/python2.7/site-packages/fake_useragent/fake.py", line 98, in __getattr__
    raise FakeUserAgentError('Error occurred during getting browser')  # noqa
FakeUserAgentError: Error occurred during getting browser

当我同时运行多个蜘蛛时，我在 Linux 服务器上不断收到此错误。这个错误在我自己的笔记本电脑上很少发生。我应该怎么做才能避免这种情况？我需要提高内存还是其他什么？服务器的规格为 512MB RAM 和 1 个 vCPU。

我不确定 RAM 以及为什么错误只发生在具有最低规格的 Linux 服务器上。我通过使用解决了它fake-useragent后备功能。可悲的是，scrapy-fake-useragent没有提供任何方便设置的功能，所以我必须重写中间件功能middlewares.py像这样：

from fake_useragent import UserAgent
from scrapy_fake_useragent.middleware import RandomUserAgentMiddleware

class FakeUserAgentMiddleware(RandomUserAgentMiddleware):
    def __init__(self, crawler):
        super(FakeUserAgentMiddleware, self).__init__(crawler)
        # If failed to get random user agent, use the most common one
        self.ua = UserAgent(fallback='Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.87 Safari/537.36')
        self.per_proxy = crawler.settings.get('RANDOM_UA_PER_PROXY', False)
        self.ua_type = crawler.settings.get('RANDOM_UA_TYPE', 'random')
        self.proxy2ua = {}

然后我激活中间件settings.py像这样：

DOWNLOADER_MIDDLEWARES = {
    'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware': None,
    # 'scrapy_fake_useragent.middleware.RandomUserAgentMiddleware': 400, # disable the original middleware
    'myproject.middlewares.FakeUserAgentMiddleware': 400,
    # omitted
}

UPDATE

尝试将 fake-useragent 更新到版本 0.1.5。我使用的是 0.1.4，升级后，问题从根本上消失了，而不是通过使用后备。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Scrapy FakeUserAgentError：获取浏览器时发生错误的相关文章

从文本文件中删除特定字符

我对 Python 和编码都很陌生我当时正在做一个小项目但遇到了一个问题 44 1 6 23 2 7 49 2 3 53 2 1 68 1 6 71 2 7 我只需要从每行中删除第三个和第六个字符或者更具体地说从整个文件中删除字符
使用 django-rest-framework 设置对象级权限

尝试使用 django rest framework 最干净最规范地管理 django guardian 对象级权限我想将对象的读取权限 module view object 分配给在执行 POST 时发出请求的用户我的基于阶级的观点
Mypy 无法从文字列表推断项目的类型

我有一个变量x和一个文字列表例如 0 1 2 我想转换x这些文字之一如果x在列表中我将其退回否则我返回一个后备值 from typing import Literal Set Foo Literal 0 1 2 foos Set F
在Python中从大文件中搜索单词列表

我是新蟒蛇我有一个单词列表和一个非常大的文件我想删除文件中包含单词列表中的单词的行单词列表按排序给出并且可以在初始化期间输入我正在努力寻找解决这个问题的最佳方法我现在正在进行线性搜索这花费了太多时间有什么建议么您可以使用i
Series.sort() 和 Series.order() 有什么区别？

s pd Series nr randint 0 10 5 index nr randint 0 10 5 s Output 1 3 7 6 2 0 9 7 1 6 order 按值排序并返回一个新系列 s order Output 2 0
如何过滤 Pandas GroupBy 对象并获取 GroupBy 对象？

当对 Pandas groupby 操作的结果执行过滤时它返回一个数据帧但假设我想执行进一步的分组计算我必须再次调用 groupby 这似乎有点绕有更惯用的方法吗 EDIT 为了说明我在说什么我们无耻地从 Pandas 文档中窃取
使用 Paramiko 进行 DSA 密钥转发？

我正在使用 Paramiko 在远程服务器上执行 bash 脚本在其中一些脚本中存在与其他服务器的 ssh 连接如果我只使用 bash 不使用 Python 我的 DSA 密钥将被第一个远程服务器上的 bash 脚本转发并使用以连接
使用python从gst管道抓取帧到opencv

我在用着OpenCV http opencv org 和GStreamer0 10 我使用此管道通过自定义套接字通过 UDP 接收 MPEG ts 数据包sockfd由 python 提供并显示它xvimagesink 而且效果很好以下命
在Python上获取字典的前x个元素

我是Python的新手所以我尝试用Python获取字典的前50个元素我有一本字典它按值降序排列 k 0 l 0 for k in len dict d l 1 if l lt 51 print dict 举个小例子 dict d m
python 中的 <> 运算符有什么作用？

我刚刚遇到这个here http www feedparser org feedparser py 总是这样使用 if string1 find string2 lt gt 1 pass 什么是 lt gt 运算符这样做为什么不使用通常的
运行 Python 单元测试，以便成功时不打印任何内容，失败时仅打印 AssertionError()

我有一个标准单元测试格式的测试模块 class my test unittest TestCase def test 1 self tests def test 2 self tests etc 我的公司有一个专有的测试工具它将作为命令行
vagrant ssh -c 并在连接关闭后保持后台进程运行

我正在编写一个脚本来启动和后台流浪机器内的进程似乎每次脚本结束和 ssh 会话结束时后台进程也会结束这是我正在运行的命令 vagrant ssh c cd vagrant src nohup python hello py gt he
Spark 和 Python 使用自定义文件格式/生成器作为 RDD 的输入

我想问一下 Spark 中输入的可能性我可以看到从http spark apache org docs latest programming guide html http spark apache org docs latest pro
python中basestring和types.StringType之间的区别？

有什么区别 isinstance foo types StringType and isinstance foo basestring 对于Python2 basestring是两者的基类str and unicode while type
如何查找或安装适用于 Python 的主题 tkinter ttk

过去 3 个月我一直在制作一个机器人仅用代码就可以完美运行现在我的下一个目标是为它制作一个 GUI 但是我发现了一些障碍主要的一个是能够看起来不像一个 30 年前的程序我使用的是 Windows 7 我仅使用 Python 3 3
是否需要关闭没有引用它们的文件？

作为一个完全的编程初学者我试图理解打开和关闭文件的基本概念我正在做的一项练习是创建一个脚本允许我将内容从一个文件复制到另一个文件 in file open from file indata in file read out file
如何指示 urwid 列表框的项目数多于当前显示的项目数？

有没有办法向用户显示 urwid 列表框在显示部分上方下方有其他项目我正在考虑类似滚动条的东西它可以显示条目的数量或者列表框顶部底部的单独栏如果这个行为无法实现有哪些方法可以实现这个通知在我的研究过程中我发现这个问题 ht
无法通过 Python 子进程进行 SSH

我需要通过堡垒 ssh 进入机器因此该命令相当长 ssh i
如何给URL添加变量？

我正在尝试从网站收集数据我有一个 Excel 文件其中包含该网站的所有不同扩展名 F i www example com example2 我有一个脚本可以成功从网站中提取 HTML 但现在我想为所有扩展自动执行此操作然而当我说 s
定义在文本小部件中双击时选择哪些字符

在 Windows 上双击文本小部件中的单词也将选择连接的标点符号有什么方法可以定义您想要选择的角色吗 tcl wordchars该变量的值是一个正则表达式可以设置它来控制什么被视为单词字符例如通过双击 Tk 中的文本来选择单

随机推荐

如何在主图区域之外的 ggplot2 中添加多个标题

我想为页脚添加两个标题但 ggplot 似乎只需要 1 是否有解决方法可以将注释或 geom text 添加到左下角和右下角 library ggplot2 p lt ggplot mtcars aes x wt y mpg geom p
自动创建带有文件输出的目录[重复]

这个问题在这里已经有答案了假设我想制作一个文件 filename foo bar baz txt with open filename w as f f write FOOBAR 这给出了一个IOError since foo bar不存
Lodash _.hasIntersection？

我想知道两个或多个数组是否有共同的项目但我不在乎这些项目是什么我知道 lodash 有一个 intersection方法但我不需要它来遍历每个数组的每个项目相反我需要类似的东西 hasIntersection一旦找到第一个常见的出
如何使用 Hibernate Session.doWork(...) 进行保存点/嵌套事务？

我正在使用 JavaEE JPA 托管事务与 Oracle DB 和 Hibernate 并且需要实现某种嵌套事务据我所知此类事情不受开箱即用的支持但我应该能够为此目的使用保存点正如建议的https stackoverflow co
为“facet_wrap”中的每列创建边框和标题

我想在每个方面周围放置带有标签和标题的黑色边框facet wrap 与此类似的东西样本数据 library tidyverse mtcars gt mutate gear factor gear levels c 4 3 5 gt ggp
如何以require格式打印页面的gridview

我有一个来自数据库的 gridview 问题是当用户单击打印按钮时我想打印整个页面 gridview 的每一行以给定格式打印为 1 A4 尺寸页面上的 3 行 gridview Printing format 如果你想使用 javascr
如何更改数据表中的少数列名称

我有一个包含 10 列的数据表 town tc one two three four five six seven total 需要生成我正在使用的列一到总计的平均值 DTmean lt DT lapply SD mean by t
如何将类组件中的 props 发送到功能组件？

我是 ReactJS 的初学者需要知道如何将一个页面中的 props 值发送到另一个页面道具位于第一页上我可以获取类组件值如何获取另一页中的值提前致谢墙色 jsx import React Component from react
Java8 lambda 是否像匿名类一样维护对其封闭实例的引用？

We know https stackoverflow com questions 5054360 do anonymous classes always maintain a reference to their enclosing in
Mac OS X 中 Bash 脚本中的 SFTP 命令

我需要使用 SFTP 和 SSH 从 Mac 主机将文本文件传输到远程 PC freeSSH 这两个连接在本地网络中那么有没有办法从 Bash 脚本内部运行 SFTP 命令使用提供的用户名和密码我已经尝试过一些脚本expect 但我没
如何将事件插入为 - Out Office

我目前正在使用 Google Calendar API 并尝试在我的谷歌日历中插入新的外出事件我使用以下代码插入事件 client getClient service new Google Service Calendar clien
为什么 strtotime('a') 返回时间？

我正在 PHP 5 3 中循环遍历 CSV 文件并检查日期我一直在使用 strtotime 它运行良好除了我有一个包含 1 或 2 个字符代码的字段任何单个字符代码上的 strtotime 似乎都像我要求 now 一样但如果代码是
在 Python 中通过网络发送对象的最佳方式是什么？ [关闭]

Closed 这个问题是基于意见的 help closed questions 目前不接受答案我需要通过网络发送对象我将使用 Twisted 并且我刚刚开始查看它的文档据我所知 python实现套接字的唯一方式是通过文本那么我如何使
在 Woocommerce 的单个产品页面上显示特定的自定义产品属性

我找到了以下代码 https isabelcastillo com woocommerce product attributes functions在产品详细信息页面上显示所有自定义属性具有我需要的特定条形设计代码的工作方式就像一个魅力
Tomcat如何通过IP地址限制访问？

有谁知道Tomcat是否可以通过IP地址限制对某些应用程序的访问例如Apache的 htaccess 你添加一个Valve to the Context in context xml 具体来说 org apache catalina va
$lookup结果中的$match

我有下一个蒙戈代码 db users aggregate match and UserName eq administrator Company CompanyName eq test lookup from companies local
根据产品属性在 Magento 中创建购物车规则

我在一个类别中有产品针有些以 100 支为一包出售有些以 500 支为一包出售盒子中的针数被设置为产品属性我想根据购物车中的针总数应用购物车规则 F x 如果您购买 1000 2000 根针头无论 500 100 包的组合如何
使用 Cucumber Scenario Outline 处理 Excel 电子表格

如果可能的话我试图找到一种更优雅的方法来处理从与 Excel 电子表格行第 n 个相关的 Cucumber Scenario Outline 中调用第 n 个数字目前我正在使用迭代编号来定义要从中提取数据的 Excel 电子表格的
如何将 LEFT JOIN 限制为 SQL Server 中的第一个结果？

我有一些 SQL 几乎可以做我想做的事情我正在使用三个表 Users UserPhoneNumbers 和 UserPhoneNumberTypes 我正在尝试获取用户列表及其电话号码以供导出数据库本身很旧并且存在一些完整性问题我的问
Scrapy FakeUserAgentError：获取浏览器时发生错误

我使用 Scrapy FakeUserAgent 并在我的 Linux 服务器上不断收到此错误 Traceback most recent call last File usr local lib64 python2 7 site pack

Scrapy FakeUserAgentError：获取浏览器时发生错误

UPDATE

Scrapy FakeUserAgentError：获取浏览器时发生错误 的相关文章

随机推荐

热门标签

Scrapy FakeUserAgentError：获取浏览器时发生错误的相关文章