Python/Firefox 无头抓取脚本中的“无法解码来自木偶的响应”消息

2024-03-01

美好的一天，我在这里和谷歌上进行了大量搜索，但尚未找到解决此问题的解决方案。

场景是：

我有一个 Python 脚本 (2.7)，它循环访问多个 URL（例如，想想亚马逊页面、抓取评论）。每个页面都有相同的 HTML 布局，只是抓取不同的信息。我将 Selenium 与无头浏览器一起使用，因为这些页面具有需要执行以获取信息的 JavaScript。

我在本地计算机 (OSX 10.10) 上运行此脚本。 Firefox 是最新的 v59. Selenium 的版本为 3.11.0，使用 geckodriver v0.20。

该脚本在本地没有问题，它可以运行所有 URL 并毫无问题地抓取页面。

现在，当我将脚本放在我的服务器上时，唯一的区别是它是 Ubuntu 16.04（32 位）。我使用适当的 geckodriver（仍然是 v0.20），但其他一切都是相同的（Python 2.7、Selenium 3.11）。它似乎会随机崩溃无头浏览器，然后所有的browserObjt.get('url...')不再工作了。

错误消息说：

消息：无法解码来自木偶的响应

对页面的任何进一步的 selenium 请求都会返回错误：

消息：尝试在未建立连接的情况下运行命令

显示一些代码：

当我创建驱动程序时：

    options = Options()
    options.set_headless(headless=True)

    driver = webdriver.Firefox(
        firefox_options=options,
        executable_path=config.GECKODRIVER
    )

driver作为参数传递给脚本的函数browserObj然后用于调用特定页面，加载后将其传递给 BeautifulSoup 进行解析：

browserObj.get(url)

soup = BeautifulSoup(browserObj.page_source, 'lxml')

该错误可能指向导致浏览器崩溃的 BeautifulSoup 行。

可能是什么原因造成的？我可以采取什么措施来解决该问题？

编辑：添加指向同一事物的堆栈跟踪：

Traceback (most recent call last):
  File "main.py", line 164, in <module>
    getLeague
  File "/home/ps/dataparsing/XXX/yyy.py", line 48, in BBB
    soup = BeautifulSoup(browserObj.page_source, 'lxml')
  File "/home/ps/AAA/projenv/local/lib/python2.7/site-packages/selenium/webdriver/remote/webdriver.py", line 670, in page_source
    return self.execute(Command.GET_PAGE_SOURCE)['value']
  File "/home/ps/AAA/projenv/local/lib/python2.7/site-packages/selenium/webdriver/remote/webdriver.py", line 312, in execute
    self.error_handler.check_response(response)
  File "/home/ps/AAA/projenv/local/lib/python2.7/site-packages/selenium/webdriver/remote/errorhandler.py", line 242, in check_response
    raise exception_class(message, screen, stacktrace)
WebDriverException: Message: Failed to decode response from marionette

注意：此脚本用于 Chrome。因为服务器是32位服务器，所以我只能使用chromedriver v0.33，它只支持Chrome v60-62。目前 Chrome 是 v65，在 DigitalOcean 上我似乎没有一种简单的方法可以恢复到旧版本 - 这就是我坚持使用 Firefox 的原因。

对于在 Docker 容器中运行 selenium webdriver 时遇到此问题的其他人，将容器大小增加到 2GB https://github.com/SeleniumHQ/docker-selenium/pull/485/files#diff-04c6e90faac2675aa89e2176d2eec7d8R43 fixes 这个问题 https://bugzilla.mozilla.org/show_bug.cgi?id=1338771#c10.

我想如果 OP 通过将服务器 RAM 升级到 2Gb 来解决问题，这也会影响物理机，但这可能是巧合。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Python/Firefox 无头抓取脚本中的“无法解码来自木偶的响应”消息的相关文章

python future 和元组解包

实现像使用 future 进行元组解包这样的事情的优雅惯用的方法是什么我有这样的代码 a b c f x y g a b z h y c 我想将其转换为使用期货理想情况下我想写一些类似的东西 a b c ex submit f x y
我怎样才能更多地了解Python的内部原理？ [关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案我使用Python编程已经有半年多了我对Python内部更感兴趣而不是使用Python开发应用程序
python 中的代表

我实现了这个简短的示例来尝试演示一个简单的委托模式我的问题是这看起来我已经理解了委托吗 class Handler def init self parent None self parent parent def Handle self
Python模块可以访问英语词典，包括单词的定义[关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我正在寻找一个 python 模块它可以帮助我从英语词典中获取单词的定义当然有enchant 这可以帮助我检查该单词是否存在于英语中
python 模拟第三方模块

我正在尝试测试一些处理推文的类我使用 Sixohsix twitter 来处理 Twitter API 我有一个类充当 Twitter 类的外观我的想法是模拟实际的 Sixohsix 类通过随机生成新推文或从数据库检索它们来模拟推文的
在 Python distutils 中从 setup.py 查找脚本目录的正确方法？

我正在分发一个具有以下结构的包 mymodule mymodule init py mymodule code py scripts script1 py scripts script2 py The mymodule的子目录mymodul
通过列表理解压平列表列表

我正在尝试使用 python 中的列表理解来展平列表我的清单有点像 1 2 3 4 5 6 7 8 只是为了打印这个列表列表中的单个项目我编写了这个函数 def flat listoflist for item in listoflis
将数据帧行转换为字典

我有像下面的示例数据这样的数据帧我正在尝试将数据帧中的一行转换为类似于下面所需输出的字典但是当我使用 to dict 时我得到了索引和列值有谁知道如何将行转换为像所需输出那样的字典任何提示都非常感激 Sample data pri
if 语句未命中中的 continue 断点

在下面的代码中两者a and b是生成器函数的输出并且可以评估为None或者有一个值 def testBehaviour self a None b 5 while True if not a or not b continue pri
填充两个函数之间的区域

import matplotlib pyplot as plt import numpy as np def domain x np arange 0 10 0 001 f1 lambda x 2 x x 2 0 5 plt plot x
如何计算numpy数组中元素的频率？

我有一个 3 D numpy 数组其中包含重复的元素 counterTraj shape 13530 1 1 例如 counterTraj 包含这样的元素我只显示了几个元素 array 136 129 130 103 102 101 我
使用 Python pandas 计算调整后的成本基础（股票买入/卖出的投资组合分析）

我正在尝试对我的交易进行投资组合分析并尝试计算调整后的成本基础价格我几乎尝试了一切但似乎没有任何效果我能够计算调整后的数量但无法获得调整后的购买价格有人可以帮忙吗这是示例交易日志原始数据 import pandas as pd
奇怪的 MySQL Python mod_wsgi 无法连接到 'localhost' (49) 上的 MySQL 服务器问题

StackOverflow上也有类似的问题但我还没有发现完全相同的情况这是在使用 MySQL 的 OS X Leopard 机器上一些起始信息 MySQL Server version 5 1 30 Apache 2 2 13 Uni
按元组分隔符拆分列表

我有清单 print L I WW am XX newbie YY ZZ You WW are XX cool YY ZZ 我想用分隔符将列表拆分为子列表 ZZ print new L I WW am XX newbie YY ZZ You
如何在 python 中没有 csv.reader 迭代器的情况下解析单行 csv 字符串？

我有一个 CSV 文件需要重新排列和重新编码我想跑 line line decode windows 1250 encode utf 8 在由 CSV 读取器解析和分割之前的每一行或者我想自己迭代行运行重新编码并仅使用单行解析表单
python Soap zeep模块获取结果

我从 SOAP API 得到如下结果 client zeep Client wsdl self wsdl transport transport auth header lb E authenticate self login res cl
使用yield 进行字典理解

作为一个人为的例子 myset set a b c d mydict item yield join item s for item in myset and list mydict gives as cs bs ds a None b N
如何在 OSX 上安装 numpy 和 scipy？

我是 Mac 新手请耐心等待我现在使用的是雪豹 10 6 4 我想安装numpy和scipy 所以我从他们的官方网站下载了python2 6 numpy和scipy dmg文件但是我在导入 numpy 时遇到问题 Library F
Python 无法使用套接字绑定我的外部/公共 IP 地址，给出错误但是当使用本地 IP 地址时，错误不会显示

这是出现主要错误的代码与我的本地 IP 的绑定将起作用 s bind 192 168 1 4 port 与我的公共 IP 的绑定失败并出现以下错误 s bind 99 99 99 99 port WinError 10049 请求的地址在
运行多个并行 Selenium WebDriver 会话

我想知道我们是否能够运行两个 Selenium WebDriver 会话或者如何使用同一个 WebDriver 处理两个浏览器窗口并并行运行它们尝试像下面这样定义您的 TestNg 套件然后它将同时开始运行两者

随机推荐

Typescript 1.5 中的“var”和“let”

使用之间到底有什么区别var or let 在打字稿中我知道 let 允许将变量进一步定义到某个范围内而无需在该范围之外使用它对于 for 循环中的迭代器来说这显然是一个很好的优势我知道这是 ES6 定义因此编译到 ES6 在
JavaScript 中的守护线程

我有一个程序它使用 getJSON 从服务器获取 JSON 并处理该数据并将其呈现给用户但服务器上的数据会经常更新如何每 5 分钟获取新的 JSON 并将其显示给用户并在后台线程中执行我可以为此使用 setTimeout 吗谢谢
如何设计可测试性代码

我一直在考虑在我未来创建的任何项目中使用 TDD 并实施适当的测试才刚刚开始了解它如何使您的生活变得更好因此在过去的几天里我一直在 SO 上徘徊试图了解如何设计可测试性的应用程序但我似乎仍然在努力解决一些想法我读过很多你应该编
FragmentActivity：无法从 Fragment 转换为派生类

我正在尝试在 FragmentActivity 中使用 Fragment 如下所示 TutViewerFragment viewer TutViewerFragment getSupportFragmentManager findFragm
如何在 Visual Studio 2010 中将 .cs 文件折叠到 .xaml 文件内？

如何将我的 ViewModel 文件 cs 文件折叠到其相应的 View 文件 xaml 文件文件中如图所示我不知道在 Visual Studio 中执行此操作的方法但您可以在文本编辑器中编辑 csproj 文件你应该找到这样的
以编程方式快速获取图像文件类型

我正在从解析中下载带有 PNG 和 JPEG 文件的图像当图像下载到应用程序时我需要确定文件类型是什么以便我可以相应地处理图像查看了 uiimageview 的 API 并进行了搜索但无法在 swift 中找到任何解决方案任何意
具有多个键和关联值的可编码枚举

我已经看到了有关当所有情况都有关联值时如何使枚举符合 Codable 的答案但我不清楚如何混合具有和不具有关联值的情况的枚举如何针对给定情况使用同一密钥的多个变体如何对没有关联值的情况进行编码解码 enum EmployeeClas
使用属性调用方法

我有各种单独的方法它们都需要执行相同的功能然后才能继续自己的实现现在我可以在每个方法中实现这些功能但我想知道是否有一种方法可以利用attributes去做这个作为一个非常简单的示例所有网络调用都必须检查网络连接 public v
即使我清除缓存，.gitignore 也不起作用

在将初始提交推送到 git 存储库后我犯了创建 gitignore 文件的错误我的 gitignore 非常简单它只包含 node modules 我尝试过以下方法 git rm cached rf git add git commi
如何将按“Enter”键与单击按钮关联起来？

在我的 swing 程序中我有一个 JTextField 和一个 JButton 我希望一旦用户按下 enter 键 JButton 的 actionListener 就会运行我该怎么做提前致谢 JRootPane 有一个方法 se
Python - 列表字典

制作列表字典的最佳方法是什么例如如果我有列表列表1 列表2并想做一本字典my dict像那样 my dict list1 list1 list2 list2 我发现了this https stackoverflow com questi
docker-compose up 不重新创建容器

我创建了两个容器一个是 oracle db 一个是 apache tomcat 我使用以下 docker compose 运行它们 version 3 4 services tomcat build tomcat ports 8888 8
运行 StarTeam 2008 Release 2 客户端时出现“无法创建 Java 虚拟机”错误

为什么 StarTeam 2008 Release 2 Client 没有在我的计算机上正确安装每当我尝试启动它时都会收到无法创建 Java 虚拟机错误正如我之前所想这不是定位 Java 虚拟机的问题而是内存分配问题在 St
Facebook 聊天机器人 - 如何测试欢迎消息？

我的聊天机器人运行良好但我在调试欢迎消息功能时遇到了麻烦因为它仅在发起对话时显示尽管我很确定在同事手机上尝试过它不起作用如何重置我的聊天以便将我视为与之交互的新用户这是我目前受欢迎的 PHP 脚本
如果使用 Android 后台服务，Flutter 会停留在“等待观测站端口可用”

我一直在尝试为 Flutter 编写平台代码来启动后台服务在这里我使用了一个最小的例子没有actual所做的工作表明该应用程序根本无法运行实际的flutter代码根本没有修改 MainActivity java public cla
AnyLogic 计算机处理器需要建议 - 单核速度与核心数量？

我在一台老式电脑上进行建模最近获得了一些实验室资金来购买一台新的建模计算机处理器的选择让我感到困惑为了获得最佳的 AnyLogic 仿真建模我应该专注于最大化单核速度还是最大化处理器核心数量另外高端显卡有帮助吗我从我的工程同事
如何使用 Java 或 CMD 获取 PC 硬件信息

我正在创建一个 Java 桌面应用程序用于报告 Windows 计算机 XP Vista 和 W7 的性能和统计信息使用 Java 或命令行如何获取以下信息制造商戴尔惠普模数处理器类型处理器尺寸系统类型储存空间内存总计
Android - 使滑动抽屉从左向右滑动

我已经使用下面的 XML 布局在我的应用程序中实现了滑动抽屉我从 androidpeople com 得到这个例子
使用 C# 识别 CPU 架构类型

我想检查用户运行的是哪个CPU架构是吗 i386 或 X64 或 AMD64 我想用 C 来做我知道我可以尝试 WMI 或注册表除了这两种还有其他办法吗我的项目目标是 NET 2 0 让我来到这里的是检查 32 位与 64 位操作系
Python/Firefox 无头抓取脚本中的“无法解码来自木偶的响应”消息

美好的一天我在这里和谷歌上进行了大量搜索但尚未找到解决此问题的解决方案场景是我有一个 Python 脚本 2 7 它循环访问多个 URL 例如想想亚马逊页面抓取评论每个页面都有相同的 HTML 布局只是抓取不同的信息我将

Python/Firefox 无头抓取脚本中的“无法解码来自木偶的响应”消息

Python/Firefox 无头抓取脚本中的“无法解码来自木偶的响应”消息 的相关文章

随机推荐

热门标签

Python/Firefox 无头抓取脚本中的“无法解码来自木偶的响应”消息的相关文章