在 PyPy 上运行 Scrapy

2023-12-30

是否可以运行Scrapy on PyPy？我浏览了文档和 github 项目，但唯一的地方PyPy提到的是有一些单元测试正在执行PyPy2年前，参见PyPy support https://github.com/scrapy/scrapy/pull/205。还有Scrapy 在 PyPy 中失败 https://mail.python.org/pipermail/pypy-dev/2012-December/010683.html三年前进行了长时间的讨论，但没有具体的解决方案或后续行动。

据我了解，Scrapy的主要依赖Twisted is 已知致力于PyPy https://bitbucket.org/pypy/compatibility/wiki/twisted。 Scrapy 还使用lxml用于 HTML 解析，其中有一个PyPy-友好的分叉 https://github.com/amauryfa/lxml/tree/cffi。另一个依赖项，pyOpenSSL https://travis-ci.org/pyca/pyopenssl/jobs/66236395完全支持（感谢@Glyph 的评论）。

是的。 :-)

更详细地说，我已经在我的盒子上安装了 pypy 2.6.0 版本（带 pip）。简单地运行pip install scrapy nearly刚刚为我工作。原来我需要一些额外的库 http://lxml.de/installation.html对于lxml。之后就好了。

安装后，我可以运行dmoz教程 http://doc.scrapy.org/en/latest/intro/tutorial.html。例如：

[user@localhost scrapy_proj]# scrapy crawl dmoz
2015-06-30 14:34:45 [scrapy] INFO: Scrapy 1.0.0 started (bot: scrapy_proj)
2015-06-30 14:34:45 [scrapy] INFO: Optional features available: ssl, http11
2015-06-30 14:34:45 [scrapy] INFO: Overridden settings: {'BOT_NAME': 'scrapy_proj', 'NEWSPIDER_MODULE': 'scrapy_proj.spiders', 'SPIDER_MODULES': ['scrapy_proj.spiders']}
2015-06-30 14:34:45 [py.warnings] WARNING: :0: UserWarning: You do not have a working installation of the service_identity module: 'No module named service_identity'.  Please install it from <https://pypi.python.org/pypi/service_identity> and make sure all of its dependencies are satisfied.  Without the service_identity module and a recent enough pyOpenSSL to support it, Twisted can perform only rudimentary TLS client hostname verification.  Many valid certificate/hostname mappings may be rejected.

2015-06-30 14:34:45 [scrapy] INFO: Enabled extensions: CoreStats, TelnetConsole, CloseSpider, LogStats, SpiderState
2015-06-30 14:34:45 [scrapy] INFO: Enabled downloader middlewares: HttpAuthMiddleware, DownloadTimeoutMiddleware, UserAgentMiddleware, RetryMiddleware, DefaultHeadersMiddleware, MetaRefreshMiddleware, HttpCompressionMiddleware, RedirectMiddleware, CookiesMiddleware, ChunkedTransferMiddleware, DownloaderStats
2015-06-30 14:34:45 [scrapy] INFO: Enabled spider middlewares: HttpErrorMiddleware, OffsiteMiddleware, RefererMiddleware, UrlLengthMiddleware, DepthMiddleware
2015-06-30 14:34:45 [scrapy] INFO: Enabled item pipelines: 
2015-06-30 14:34:45 [scrapy] INFO: Spider opened
2015-06-30 14:34:45 [scrapy] INFO: Crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 items/min)
2015-06-30 14:34:45 [scrapy] DEBUG: Telnet console listening on 127.0.0.1:6023
2015-06-30 14:34:46 [scrapy] DEBUG: Crawled (200) <GET http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/> (referer: None)
2015-06-30 14:34:46 [scrapy] DEBUG: Crawled (200) <GET http://www.dmoz.org/Computers/Programming/Languages/Python/Books/> (referer: None)
2015-06-30 14:34:46 [scrapy] INFO: Closing spider (finished)
2015-06-30 14:34:46 [scrapy] INFO: Dumping Scrapy stats:
{'downloader/request_bytes': 514,
 'downloader/request_count': 2,
 'downloader/request_method_count/GET': 2,
 'downloader/response_bytes': 16286,
 'downloader/response_count': 2,
 'downloader/response_status_count/200': 2,
 'finish_reason': 'finished',
 'finish_time': datetime.datetime(2015, 6, 30, 13, 34, 46, 219002),
 'log_count/DEBUG': 3,
 'log_count/INFO': 7,
 'log_count/WARNING': 1,
 'response_received_count': 2,
 'scheduler/dequeued': 2,
 'scheduler/dequeued/memory': 2,
 'scheduler/enqueued': 2,
 'scheduler/enqueued/memory': 2,
 'start_time': datetime.datetime(2015, 6, 30, 13, 34, 45, 652421)}
2015-06-30 14:34:46 [scrapy] INFO: Spider closed (finished)

根据要求，以下是有关我正在运行的版本的更多信息：

[user@localhost scrapy_proj]# which scrapy
/opt/pypy/bin/scrapy
[user@localhost scrapy_proj]# scrapy version
2015-06-30 15:04:42 [scrapy] INFO: Scrapy 1.0.0 started (bot: scrapy_proj)
2015-06-30 15:04:42 [scrapy] INFO: Optional features available: ssl, http11
2015-06-30 15:04:42 [scrapy] INFO: Overridden settings: {'BOT_NAME': 'scrapy_proj', 'NEWSPIDER_MODULE': 'scrapy_proj.spiders', 'SPIDER_MODULES': ['scrapy_proj.spiders']}
Scrapy 1.0.0

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

在 PyPy 上运行 Scrapy 的相关文章

如何使用 Python 的 __import__ 函数执行相当于“从模块导入 *”的操作？

给定一个带有模块名称的字符串如何导入模块中的所有内容就好像您调用了 from module import 即给定字符串 S module 如何获得与以下内容等效的内容 import S fromlist 这似乎没有按预期执行因为它没有
龙卷风网络和线程

我是 Tornado 和 Python 线程的新手我想要实现的目标如下我有一个龙卷风网络服务器它接受用户的请求我想在本地存储一些数据并定期将其作为批量插入写入数据库 import tornado ioloop import tor
如何从字符串读取 NumPy 二维数组？

如何从字符串中读取 Numpy 数组取一个像这样的字符串 0 5544 0 4456 0 8811 0 1189 并将其转换为数组 a from string 0 5544 0 4456 0 8811 0 1189 where a成为对象
在 ReportLab 中向画布元素添加超链接的最简单方法是什么？

我正在使用 ReportLab 使用 Python 制作 pdf 我想向画布添加一个形状并让该形状充当超链接使以下示例中的矩形链接到 google com 的最简单方法是什么 from reportlab pdfgen import c
Python 中的类位于不同的文件中吗？

与 Java 或 php 非常相似我习惯将类与文件分开 Python 中也是同样的情况吗另外我应该如何命名该文件像classname py一样小写还是像ClassName py一样如果我想从此类创建一个对象我是否需要做一些特殊的
如何从 __subclasses__ 中删除类？

当从类继承时子类可以通过父类访问 subclasses method class BaseClass pass class SubClass BaseClass pass BaseClass subclasses
AMD plaidml 与 CPU Tensorflow - 意外结果

我目前正在运行一个简单的脚本来训练mnist数据集通过 Tensorflow 通过我的 CPU 运行训练给了我49us sample和使用以下代码的 3e 纪元 CPU import tensorflow as tf mnist tf k
在 virtualenv 中安装 Python-Dbus

我正在虚拟环境中运行一个应用程序需要访问 DBus 主要是与网络管理器交互我尝试使用 easyinstall 和 pip 安装 Dbus Python 但都失败了当我尝试这样做时 myvirtualenv borrajax borra
如何禁用Excel自动识别数字和文本

我使用 Python 生成了 CSV 文件但是当我在Excel中打开它时如果可以转换 Excel会自动将字符串识别为数字 e g 33E105变成33 10 105 这实际上是一个ID 而不是一个数字如何在打开 CSV 文件时在 Ex
将字符串作为有序字典导入

我有一个没有扩展名的文件其中包含这样的行忽略行之间的间距但每一行都是单独的行 OrderedDict key1 u value1 key2 value2 OrderedDict key1 u value1 key2 value2 Or
如何更新 certifi 的根证书？

我正在使用 certifi python 模块来验证 ssl 连接我查看了 certifi python2 7 site packages certifi cacert pem 中包含的根证书其中一些证书已过期我如何更新这些证书我尝
当按下 flutter 中编写的按钮时，有没有办法运行 python 脚本？

本质上我想做的是按下我在 Flutter 中编程的按钮当按下该按钮时 Python 脚本应该开始在我的 Android 设备上运行我想在 python 中使用 youtube dl 用于下载 Youtube 视频库但我想知道是否
如何使用Python优化大型数据集的API调用？

客观的将地址列表发送到 API 并提取某些信息例如指示地址是否位于洪水区域的标志 Solution 适用于小数据的 Python 脚本 Problem 我想针对大输入优化当前的解决方案如何提高 API 调用的性能如果我有 100
Linux 中如何确定哪个进程正在使用某个端口

我目前正在其默认端口上运行 RethinkDB 因为如果我将浏览器指向localhost 8080我看到 RethinkDB Web 界面我想关闭 RethinkDB 并使用以下命令在另一个端口上重新打开它 port offset争论然
在 python matplotlib 中格式化损坏的 y 轴

我正在 matplotlib 中处理一个相当复杂的条形图它包含来自多个源的摘要数据每个源都沿 x 轴标记 y 轴上有一系列结果许多结果都是异常值我尝试使用断开的 y 轴来显示这些结果而不会使用以下组合来扭曲整个图表这个方法 h
在matplotlib中绘制曲线连接点

所以我试图绘制曲线来连接点这是我正在使用的代码 def hanging line point1 point2 a point2 1 point1 1 np cosh point2 0 np cosh point1 0 b point1 1
导入后属性未添加到模块中

我做了以下实验室 vagrant ubuntu xenial test tree pack1 init py mod1 py pack2 init py mod2 py mod3 py test py 2 directories 6 fil
使用scrapy到json文件只得到一行输出

好吧我对一般编程很陌生并且具体使用 Scrapy 来实现此目的我编写了一个爬虫来从 pinterest com 上的 pin 获取数据问题是我以前从我正在抓取的页面上的所有引脚获取数据但现在我只获取第一个引脚的数据我认为问题出在
pytest - ModuleNotFoundError - python 3.6.4

我有一个具有以下布局的项目 MANIFEST in README md init py company init py api init py auth py debug py exceptions py reporting py rest
App Engine、PIL 和叠加文本

我正在尝试在 GAE 上的图像上覆盖一些文本现在他们公开了 PIL 库这应该不是问题这就是我所拥有的它有效但我不禁认为我应该直接写入背景图像而不是创建单独的覆盖图像然后合并我可以用吗Image frombuffer http

随机推荐

Pyspark 合并数据帧行，一个数组包含在另一个数组中

我什至不知道表达这些问题的最佳标题是什么我有以下数据集 df spark createDataFrame 1 2 3 4 1 2 3 2 1 3 2 3 4 1 6 7 cycle df show cycle 1 2 3 4 1 2 3
Tipfy：本地访问多重身份验证示例时出现“NotFound：404”

我在 Google App Engine 上使用 Tipfy 框架 tipfy org 我想扩展多重身份验证示例 http tipfy auth appspot com http tipfy auth appspot com 为了尝试这个例
C# Word Interop - 某种语言的拼写检查

对于我的一位客户我需要强制以某种语言进行拼写检查我浏览了MSDN文档发现当调用CheckSpelling 方法在活动文档中它将调用拼写检查该方法具有自定义字典的参数我的问题是我找不到有关这些词典或如何使用它们的任何信息当然仍
Google App Engine 运行状况检查垃圾邮件应用

我已经使用以下命令部署了一个在 Google App Engine Flex 运行时上运行的 Nodejs 应用程序app yaml配置 runtime nodejs env flex health check enable health
停止执行makefile

我实现了一个配方以便将所有剩余的字符串传递给命令如以下脚本中的示例 Makefile run bin run sh filter out MAKECMDGOALS echo filter out MAKECMDGOALS 但是当我作为例
Vagrant：未知配置部分“omnibus”，但已安装 vagrant-omnibus 插件

我已按照以下说明进行操作 http berkshelf com http berkshelf com 安装最新的 ChefDK 后从这里 http downloads getchef com chef dk mac http downlo
如何测试 pytest 夹具是否引发异常？

使用案例在一个pytest测试套件我有一个 fixture如果缺少配置的命令行选项则会引发异常我已经使用这个夹具编写了一个测试xfail import pytest from
.NET 4.5 出现奇怪的文本框问题 - 不是“.”允许

我遇到了一个与 NET 4 5 相关的非常奇怪的问题今天一位用户告诉我他无法在文本框中输入浮点数例如 2 75 文本框只是不接受这是我的文化中浮点数的正确分隔符 de CH 这个问题是在我用 NET 4 5 以前是4 0 编译软
如何确保三消游戏关卡中的目标目标不会成为不可能实现的目标？

这显然不是编码问题而是逻辑问题我开始学习如何制作三消游戏但我的脑海里浮现出一个问题当我设定目标来完成关卡时我如何知道目标是否可以实现假设在一个关卡中我必须通过匹配相同的物体例如农场英雄来收集 5 个红色 12 个蓝色 9
“对与指定绑定约束匹配的类型“TestWPF.MainWindow”的构造函数的调用引发了异常。”- 如何解决此问题？

我正在使用 WPF 当我试图宣告SQLiteConnection在代码中问题出现了 The invocation of the constructor on type TestWPF MainWindow that matches the
Node.js：如何将控件C发送到子进程

我正在使用node js socket io 编写一个类似Web 的Linux shell 简单的命令如 ls cd 运行良好但是当发出像 ping google com 这样的命令时标准输出会无休止地打印我尝试将 Ctrl C 发送
当应用程序处于后台状态时，Firebase FIRStorageUploadTask 在 Swift 上

我想为我的应用程序实现一个文件上传队列文件将上传到 Firebase 存储当应用程序处于前台模式时我可以使用后台线程上传文件我的挑战是在应用程序处于后台状态时继续上传从我到目前为止的研究来看使用 NSURLSession 应用程
使用 ruby on Rails 发送 HTTP 请求

我是 ruby on Rails 的新手并尝试测试我是否可以从我的控制器执行如下操作 curl v H Content Type application json X GET d bbrequest BBTest reqid 44 dat
android.util.Patterns.EMAIL_ADDRESS 正在验证无效电子邮件

这些是一些无效的电子邮件电子邮件受保护 cdn cgi l email protection 电子邮件受保护 cdn cgi l email protection 我在以下网站检查了上述电子邮件所有这些邮件均返回无效 http isem
修改（简化）主题标题以在 url 中显示

我正在用 PHP 创建一个小型留言板我需要简化主题标题以将其显示在主题的 url 中例子 Ceci est un sujet d exemple变成ceci est un sujet d exemple J ai t la plag
从 HTTP 切换到 HTTPS，失去了所有 Facebook“点赞”计数

我从http to https两个月前现在我失去了所有的喜欢即使当我使用脸书调试工具 https developers facebook com tools debug 现在它之间的计数相同http and https 有人知道这是否
在类中声明动态 2D 矢量

我们尝试使用 2D 向量因为我们想要一个能够动态增长的 2D 数组我们尝试过这个在类声明中 vector
使用经典 asp 收集数组中的第一个元素

我有一个经典 asp 中的二维数组我的目标是找到该数组中的第一个元素并将其保存在变量中之后剩余的元素第一个元素除外保存在同一个数组中例子如果 aryReturn 是一个类似数组 aryReturn 0 0 1001 aryRet
Android SDK 管理器中的 MIPS 系统映像是什么？

对于每个 SDK 我都有一个安装解决方案MIPS system image 它是什么它有什么作用以及何时有人使用它如果我不安装它会发生什么它是什么它是一个模拟器映像可模拟具有 MIPS CPU 而不是 ARM 或 x86 CPU
在 PyPy 上运行 Scrapy

是否可以运行Scrapy on PyPy 我浏览了文档和 github 项目但唯一的地方PyPy提到的是有一些单元测试正在执行PyPy2年前参见PyPy support https github com scrapy scrapy pu

在 PyPy 上运行 Scrapy

在 PyPy 上运行 Scrapy 的相关文章

随机推荐

热门标签