将 Scrapy over Splash 与 HTTP 代理结合使用时出现“500 内部服务器错误”

2023-12-12

我正在尝试使用 Splash （以渲染 JavaScript）和 Tor 通过 Privoxy （以提供匿名性）在 Docker 容器中爬行 Scrapy 蜘蛛。这里是docker-compose.yml我正在为此使用：

version: '3'

services:
  scraper:
    build: ./apk_splash
    # environment:
      # - http_proxy=http://tor-privoxy:8118
    links:
      - tor-privoxy
      - splash

  tor-privoxy:
    image: rdsubhas/tor-privoxy-alpine

  splash:
    image: scrapinghub/splash

其中 Scraper 有以下内容Dockerfile:

FROM python:alpine
RUN apk --update add libxml2-dev libxslt-dev libffi-dev gcc musl-dev libgcc openssl-dev curl bash
RUN pip install scrapy scrapy-splash scrapy-fake-useragent
COPY . /scraper
WORKDIR /scraper
CMD ["scrapy", "crawl", "apkmirror"]

我试图爬行的蜘蛛是

import scrapy
from scrapy_splash import SplashRequest
from apk_splash.items import ApkmirrorItem

class ApkmirrorSpider(scrapy.Spider):
    name = 'apkmirror'
    allowed_domains = ['apkmirror.com']
    start_urls = [
        'http://www.apkmirror.com/apk/cslskku/androbench-storage-benchmark/androbench-storage-benchmark-5-0-release/androbench-storage-benchmark-5-0-android-apk-download/',
    ]

    custom_settings = {'USER_AGENT': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_5) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.115 Safari/537.36'}

    def start_requests(self):
        for url in self.start_urls:
            yield SplashRequest(url=url, callback=self.parse, endpoint='render.html', args={'wait': 0.5})

    def parse(self, response):
        item = ApkmirrorItem()
        item['url'] = response.url
        item['developer'] = response.css('.breadcrumbs').xpath('.//*[re:test(@href, "^/(?:[^/]+/){1}[^/]+/$")]/text()').extract_first()
        item['app'] = response.css('.breadcrumbs').xpath('.//*[re:test(@href, "^/(?:[^/]+/){2}[^/]+/$")]/text()').extract_first()
        item['version'] = response.css('.breadcrumbs').xpath('.//*[re:test(@href, "^/(?:[^/]+/){3}[^/]+/$")]/text()').extract_first()
        yield item

我添加了以下内容settings.py:

SPIDER_MIDDLEWARES = {
    'scrapy_splash.SplashDeduplicateArgsMiddleware': 100,
}

DOWNLOADER_MIDDLEWARES = {
    'scrapy_splash.SplashCookiesMiddleware': 723,
    'scrapy_splash.SplashMiddleware': 725,
    'scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware': 810,
}

SPLASH_URL = 'http://splash:8050/'

DUPEFILTER_CLASS = 'scrapy_splash.SplashAwareDupeFilter'
HTTPCACHE_STORAGE = 'scrapy_splash.SplashAwareFSCacheStorage'

随着environment为了scraper容器注释掉了，Scraper 或多或少可以工作。我收到包含以下内容的日志：

scraper_1      | 2017-07-11 13:57:19 [scrapy.core.engine] DEBUG: Crawled (200) <GET http://www.apkmirror.com/apk/cslskku/androbench-storage-benchmark/androbench-storage-benchmark-5-0-release/androbench-storage-benchmark-5-0-android-apk-download/ via http://splash:8050/render.html> (referer: None)
scraper_1      | 2017-07-11 13:57:19 [scrapy.core.scraper] DEBUG: Scraped from <200 http://www.apkmirror.com/apk/cslskku/androbench-storage-benchmark/androbench-storage-benchmark-5-0-release/androbench-storage-benchmark-5-0-android-apk-download/>
scraper_1      | {'app': 'Androbench (Storage Benchmark)',
scraper_1      |  'developer': 'CSL@SKKU',
scraper_1      |  'url': 'http://www.apkmirror.com/apk/cslskku/androbench-storage-benchmark/androbench-storage-benchmark-5-0-release/androbench-storage-benchmark-5-0-android-apk-download/',
scraper_1      |  'version': '5.0'}
scraper_1      | 2017-07-11 13:57:19 [scrapy.core.engine] INFO: Closing spider (finished)
scraper_1      | 2017-07-11 13:57:19 [scrapy.statscollectors] INFO: Dumping Scrapy stats:
scraper_1      | {'downloader/request_bytes': 1508,
scraper_1      |  'downloader/request_count': 3,
scraper_1      |  'downloader/request_method_count/GET': 2,
scraper_1      |  'downloader/request_method_count/POST': 1,
scraper_1      |  'downloader/response_bytes': 190320,
scraper_1      |  'downloader/response_count': 3,
scraper_1      |  'downloader/response_status_count/200': 2,
scraper_1      |  'downloader/response_status_count/404': 1,
scraper_1      |  'finish_reason': 'finished',
scraper_1      |  'finish_time': datetime.datetime(2017, 7, 11, 13, 57, 19, 488874),
scraper_1      |  'item_scraped_count': 1,
scraper_1      |  'log_count/DEBUG': 5,
scraper_1      |  'log_count/INFO': 7,
scraper_1      |  'memusage/max': 49131520,
scraper_1      |  'memusage/startup': 49131520,
scraper_1      |  'response_received_count': 3,
scraper_1      |  'scheduler/dequeued': 2,
scraper_1      |  'scheduler/dequeued/memory': 2,
scraper_1      |  'scheduler/enqueued': 2,
scraper_1      |  'scheduler/enqueued/memory': 2,
scraper_1      |  'splash/render.html/request_count': 1,
scraper_1      |  'splash/render.html/response_count/200': 1,
scraper_1      |  'start_time': datetime.datetime(2017, 7, 11, 13, 57, 13, 788850)}
scraper_1      | 2017-07-11 13:57:19 [scrapy.core.engine] INFO: Spider closed (finished)
apksplashcompose_scraper_1 exited with code 0

但是，如果我在environment行中的docker-compose.yml，我收到 500 内部服务器错误：

scraper_1      | 2017-07-11 14:05:07 [scrapy.downloadermiddlewares.retry] DEBUG: Gave up retrying <GET http://www.apkmirror.com/apk/cslskku/androbench-storage-benchmark/androbench-storage-benchmark-5-0-release/androbench-storage-benchmark-5-0-android-apk-download/ via http://splash:8050/render.html> (failed 3 times): 500 Internal Server Error
scraper_1      | 2017-07-11 14:05:07 [scrapy.core.engine] DEBUG: Crawled (500) <GET http://www.apkmirror.com/apk/cslskku/androbench-storage-benchmark/androbench-storage-benchmark-5-0-release/androbench-storage-benchmark-5-0-android-apk-download/ via http://splash:8050/render.html> (referer: None)
scraper_1      | 2017-07-11 14:05:07 [scrapy.spidermiddlewares.httperror] INFO: Ignoring response <500 http://www.apkmirror.com/apk/cslskku/androbench-storage-benchmark/androbench-storage-benchmark-5-0-release/androbench-storage-benchmark-5-0-android-apk-download/>: HTTP status code is not handled or not allowed
scraper_1      | 2017-07-11 14:05:07 [scrapy.core.engine] INFO: Closing spider (finished)
scraper_1      | 2017-07-11 14:05:07 [scrapy.statscollectors] INFO: Dumping Scrapy stats:
scraper_1      | {'downloader/request_bytes': 3898,
scraper_1      |  'downloader/request_count': 7,
scraper_1      |  'downloader/request_method_count/GET': 4,
scraper_1      |  'downloader/request_method_count/POST': 3,
scraper_1      |  'downloader/response_bytes': 6839,
scraper_1      |  'downloader/response_count': 7,
scraper_1      |  'downloader/response_status_count/200': 1,
scraper_1      |  'downloader/response_status_count/500': 6,
scraper_1      |  'finish_reason': 'finished',
scraper_1      |  'finish_time': datetime.datetime(2017, 7, 11, 14, 5, 7, 866713),
scraper_1      |  'httperror/response_ignored_count': 1,
scraper_1      |  'httperror/response_ignored_status_count/500': 1,
scraper_1      |  'log_count/DEBUG': 10,
scraper_1      |  'log_count/INFO': 8,
scraper_1      |  'memusage/max': 49065984,
scraper_1      |  'memusage/startup': 49065984,
scraper_1      |  'response_received_count': 3,
scraper_1      |  'retry/count': 4,
scraper_1      |  'retry/max_reached': 2,
scraper_1      |  'retry/reason_count/500 Internal Server Error': 4,
scraper_1      |  'scheduler/dequeued': 4,
scraper_1      |  'scheduler/dequeued/memory': 4,
scraper_1      |  'scheduler/enqueued': 4,
scraper_1      |  'scheduler/enqueued/memory': 4,
scraper_1      |  'splash/render.html/request_count': 1,
scraper_1      |  'splash/render.html/response_count/500': 3,
scraper_1      |  'start_time': datetime.datetime(2017, 7, 11, 14, 4, 46, 717691)}
scraper_1      | 2017-07-11 14:05:07 [scrapy.core.engine] INFO: Spider closed (finished)
apksplashcompose_scraper_1 exited with code 0

简而言之，当使用 Splash 渲染 JavaScript 时，我无法成功使用HttpProxy中间件以便也通过 Privoxy 使用 Tor。有人能看到这里出了什么问题吗？

Update

根据保罗的评论，我尝试改编splash服务如下：

  splash:
    image: scrapinghub/splash
    volumes:
      - ./splash/proxy-profiles:/etc/splash/proxy-profiles

我在主目录中添加了一个“splash”目录，如下所示：

.
├── apk_splash
├── docker-compose.yml
└── splash
    └── proxy-profiles
        └── proxy.ini

and proxy.ini reads

[proxy]

host=tor-privoxy
port=8118

据我了解，这应该使代理始终被使用（即whitelist默认为".*" and no blacklist).

然而，如果我再一次docker-compose build and docker-compose up，我仍然收到 HTTP 500 错误。那么问题来了，如何解决这些问题呢？

（顺便说一句，这个问题似乎类似于https://github.com/scrapy-plugins/scrapy-splash/issues/117;但是，我没有使用 Crawlera，所以我不确定如何调整答案）。

Update 2

在保罗的第二条评论之后，我查了一下tor-privoxy通过执行以下操作在容器内解析（当它仍在运行时）：

~$ docker ps -l
CONTAINER ID        IMAGE                      COMMAND                  CREATED             STATUS              PORTS               NAMES
04909e6ef5cb        apksplashcompose_scraper   "scrapy crawl apkm..."   2 hours ago         Up 8 seconds                            apksplashcompose_scraper_1
~$ docker exec -it $(docker ps -lq) /bin/bash
bash-4.3# python
Python 3.6.1 (default, Jun 19 2017, 23:58:41) 
[GCC 5.3.0] on linux
Type "help", "copyright", "credits" or "license" for more information.
>>> import socket
>>> socket.gethostbyname('tor-privoxy')
'172.22.0.2'

至于我如何运行 Splash，它是通过链接的容器，类似于中描述的方式https://splash.readthedocs.io/en/stable/install.html#docker-folder-sharing。我已经验证过/etc/splash/proxy-profiles/proxy.ini存在于容器中：

~$ docker exec -it apksplashcompose_splash_1 /bin/bash
root@b091fbef4c78:/# cd /etc/splash/proxy-profiles
root@b091fbef4c78:/etc/splash/proxy-profiles# ls
proxy.ini
root@b091fbef4c78:/etc/splash/proxy-profiles# cat proxy.ini
[proxy]

host=tor-privoxy
port=8118

我会尝试Aquarium，但问题仍然是为什么当前设置不起作用？

遵循以下结构Aquarium项目建议保罗·特姆布斯，我发现给.ini文件命名是必须的default.ini, not proxy.ini（否则它不会被自动“拾取”）。我设法让刮刀以这种方式工作（参见我的自我回答如何在 Docker Compose 中通过 Privoxy 将 Scrapy 与 Splash 和 Tor 结合使用).

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

将 Scrapy over Splash 与 HTTP 代理结合使用时出现“500 内部服务器错误” 的相关文章

如何将base64字符串直接解码为二进制音频格式

音频文件通过 API 发送给我们该文件是 Base64 编码的 PCM 格式我需要将其转换为 PCM 然后再转换为 WAV 进行处理我能够使用以下代码解码 gt 保存到 pcm gt 从 pcm 读取 gt 保存为 wav decod
即使页面未完全加载，我们也可以使用 Selenium 获取页面源吗（TimeoutException: Message: timeout）？

即使遇到 TimeoutException Message timeout 也能获取页面源码吗当我调用 driver page source 时有时无法加载整页但我只需要它的部分信息尚未确定所以我只想在任何情况下保存页面是否可以
Python有条件求解时滞微分方程

我在用dde23 of pydelay包来求解延迟微分方程我的问题如何有条件地编写方程例如目标方程有两个选项 when x gt 1 dx dt 0 25 x t tau 1 0 pow x t tau 10 0 0 1 x othe
Kivy - 文本换行工作错误

我正在尝试在 Kivy 1 8 0 应用程序中换行文本当没有太多文字时一切正常但如果文本很长并且窗口不是很大它只是剪切文本这是示例代码 vbox BoxLayout orientation vertical size hint y
Python在postgresql表中查找带有单引号符号的字符串

我需要从 psql 表中查找包含多个单引号的字符串我当前的解决方案是将单引号替换为双单引号如下所示 sql query f SELECT exists SELECT 1 FROM table name WHERE my column m
当单词以“|”分隔时如何读取文件（埃因霍温）？

在Python中我有一个文件其中的单词由例如 city state zipcode 我的文件阅读器无法区分单词另外我希望我的文件阅读器从第 2 行而不是第 1 行开始如何让我的文件阅读器分隔单词 import os import
numpy 使用 datetime64 进行数字化

我似乎无法让 numpy digitize 与 datetime64 一起使用 date bins np array np datetime64 datetime datetime 2014 n 1 s for n in range 1 1
Pandas 滚动窗口 Spearman 相关性

我想使用滚动窗口计算 DataFrame 两列之间的 Spearman 和或 Pearson 相关性我努力了df corr df col1 rolling P corr df col2 P为窗口尺寸但我似乎无法定义该方法添加meth
与 while 循环一样，如何跳过 for 循环中的步骤？

我尝试像 while 循环一样跳过 for 循环中的几个步骤在 while 循环中步骤根据特定条件进行调整如下面的代码所示 i 0 while i lt 10 if i 3 i 5 else print i i i 1 result
乘以行并按单元格值附加到数据框

考虑以下数据框 df pd DataFrame X a b c d Y a b d e Z a b c d 1 2 1 3 df 我想在列中附加数字大于 1 的行并在该行中的数字减 1 df 最好应该然后看起来像这样或者它可能看起来
如何使用 sys.path.append 在 Python 中导入文件？

我的桌面上有两个目录 DIR1 and DIR2其中包含以下文件 DIR1 file1 py DIR2 file2 py myfile txt 这些文件包含以下内容 file1 py import sys sys path append s
Pandas style.bar 颜色基于条件？

如何渲染其中一列的 Pandas dfstyle bar color属性是根据某些条件计算的 Example df style bar subset before after color ff781c vmin 0 0 vmax 1 0 而
将文本注释到轴并对齐为圆

我正在尝试在轴上绘制文本并将该文本与圆对齐更准确地说有一些具有不同坐标 x y 的点位于该圆内并使用以下命令创建 ax scatter x y s 100 我想用圆圈连接并标记每个点 Cnameb 文本的坐标由 xp yp 定义因此
Python 类型安全吗？

根据维基百科 https en wikipedia org wiki Type system Type safety and memory safety 如果一种语言不允许违反类型系统规则的操作或转换计算机科学家就认为该语言是类型安全的
由于 json 字符串化 dict 键导致数据丢失

考虑下面的例子 gt gt gt import json gt gt gt d 0 potato 0 spud gt gt gt json dumps d 0 potato 0 spud gt gt gt json loads json d
解析根元素内元素之间的 XML 文本

我正在尝试用 Python 解析 XML 以下是 XML 结构的示例 a aaaa1 b bbbb b aaaa2 a
Python 声音（“铃声”）

我想让一个 python 程序在完成任务时通过发出嘟嘟声来提醒我目前我使用import os然后使用命令行语音程序说进程完成我更愿意它是一个简单的铃我知道有一个函数可以用于Cocoa apps NSBeep 但我认为这与此没有太
在 Django shell 会话期间获取 SQL 查询计数

有没有办法打印 Django ORM 在 Django shell 会话期间执行的原始 SQL 查询的数量 Django 调试工具栏已经提供了此类信息例如 5 QUERIES in 5 83MS但如何从 shell 中获取它并不明显您可
如何获取所有mysql元组结果并转换为json

我能够从表中获取单个数据但是当我试图获取表上的所有数据时我只得到一行 cnn execute sql rows cnn fetchall column t 0 for t in cnn description for row in ro
缓存 Flask-登录 user_loader

我有这个 login manager user loader def load user id None return User query get id 在我引入 Flask Principal 之前它运行得很好 identity loa

随机推荐

不使用存储库模式，按原样使用 ORM (EF)

我总是使用存储库模式但对于我最新的项目我想看看是否可以完善它的使用以及工作单元的实现我开始挖掘得越多我开始问自己这个问题我真的需要它吗现在这一切都始于 Stackoverflow 上的几条评论可以追溯到 Ayende Ra
Rails：使用控制器渲染 js.erb 模板

我有一个 Rails 应用程序试图合并一些 AJAX 其中单击新建会打开一个模式窗口和一个表单我希望能够在失败时显示验证错误因此在我的创建操作中我考虑重新渲染 new js erb 文件这是正确的方法吗 def create p
Android 谷歌标签管理器

我正在按照我的营销团队的要求为 Android 应用程序 V4 实施 Google 跟踪代码管理器以供将来使用而且我从未在网站的 GTM 上工作过所以在这种情况下我很天真我已经根据官方网站上的说明创建了帐户容器和标签我已将标签管理
填充八位字节字符串

我有 65 个不同位长度的参数我需要将它们填充为八位字节字符串参数将连续填充在八位字节字符串中例如假设第一个参数是 1 位长因此它将填充在八位位组字符串的第 1 个八位位组的第 0 位位置现在第二个参数假设为 9 位长因此该
子类中的重载运算符

游览和导游导游扩展了旅游类别我在旅游类中超载了 gt 运算符我的旅游课程看起来像 include
cakephp中的save和saveAll函数有什么区别？

任何人都可以举个例子吗 save用于简单地保存模型 Array ModelName gt Array fieldname1 gt value fieldname2 gt value 假设上述信息存储在名为 data 的数组中则可以调用 t
WCF REST 文件上传

我正在开发一个 WCF Web 服务它需要能够上传文件等目前我添加平面图项目的方法如下所示 OperationContract WebInvoke Method GET ResponseFormat WebMessageFormat
如何生成相关的 Uniform[0,1] 变量

这个问题与如何生成具有不同分布的相关变量的数据集在 Stata 中假设我创建一个遵循 Uniform 0 1 分布的随机变量 set seed 100 gen random1 runiform 我现在想要创建第二个随机变量它与第一个随
JAXB 错误：有多个映射。由于两个对象工厂具有相同的 Bean

我有两个 Maven JAXB 项目 A 主要 Maven JAXB 存根 XSD 项目其中包含 BASKET xsd B Maven JAXB 存根想要将 BASKET xsd 包装在自己的对象中的用户项目这会产生两个对象工厂不同的
如何在 GitHub 上合并远程更改？

第一次尝试 Github 推送时出现以下错误 rejected master gt master non fast forward error failed to push some refs to email protected me m
masm32 调用 stdout 没有输出

我正在使用 masm32 在 Windows 7 上编译和链接它与下面的代码一起工作得很好然而调用 stdOut 并不是简单地在命令提示符上打印任何内容我究竟做错了什么 386 model flat stdcall option c
如何制作一个互动节目？

我正在学习 Ocaml 我需要创建一个可以通过以下方式与用户交互的程序 Program Welcome User command1 arg1 arg2 program The answer is User command2 arg prog
在这种情况下如何在 Racket 上订购我的累积变量？

出于教育原因我使用 Racket 进行编码我收到了一项任务其中我应该创建一个函数在没有过滤器的情况下它将接收一个列表作为输入并仅返回另一个列表其中包含第一个列表的偶数我提出了迭代过程的递归定义 define add even
使用向量的 r 子集数组

我觉得这个问题应该已经有了答案但我没有找到我有一个数组我想使用向量对其进行子集化我知道如何以困难的方式做到这一点但我确信一定有一种简单的方法有任何想法吗这是我的例子 dat lt data frame a rep letter
Spring Boot + Hibernate + Postgres - 不创建表

我正在尝试基于实体生成架构表应用程序正确启动生成 SQL 但没有结果没有创建任何表怎么了我在没有 Spring Boot 的情况下在普通 Spring MVC Hibernate JPA 中使用了相同的设置并且一切正常这是我的
为什么Python的嵌套函数不称为闭包？

我在 Python 中见过并使用过嵌套函数它们与闭包的定义相匹配那么为什么它们被称为嵌套函数而不是闭包呢嵌套函数不是闭包因为它们不被外部世界使用吗 UPDATE 我正在阅读有关闭包的内容这让我开始思考这个关于 Python
需要帮助将 BMP 图像转换为 [R] 中的矩阵吗？

我对 R 非常陌生我想知道是否有一种简单的方法可以将 BMP 图像转换为 R 中的矩阵主要是我正在寻找任何可以提供帮助的包矩阵中每个元素的值对应于颜色在 CRAN 软件包列表中搜索 bmp 就会出现bmp和其他一些为了简洁起见
禁用用户在 BottomSheet 上拖动

我正在尝试禁用用户拖动BottomSheet 我想禁用的原因有两件事 1 它可以防止ListView向下滚动 2 我不希望用户使用拖动来消除而是使用BottomSheetView 这就是我所做的 bottomSheetBehavior B
基本条件覆盖与复合条件覆盖

I m trying to get my head around the differences between these 2 coverage criteria and I can t work out how they differ
将 Scrapy over Splash 与 HTTP 代理结合使用时出现“500 内部服务器错误”

我正在尝试使用 Splash 以渲染 JavaScript 和 Tor 通过 Privoxy 以提供匿名性在 Docker 容器中爬行 Scrapy 蜘蛛这里是docker compose yml我正在为此使用 version 3 se

将 Scrapy over Splash 与 HTTP 代理结合使用时出现“500 内部服务器错误”

将 Scrapy over Splash 与 HTTP 代理结合使用时出现“500 内部服务器错误” 的相关文章

随机推荐

热门标签