Scrapy

Scrapy：捕获具有特定 HTTP 服务器代码的响应

我们有一个非常标准的 Scrapy 项目 Scrapy 0 24 我想捕获特定的 HTTP 响应代码例如 200 500 502 503 504 等像这样的东西 class Spider def parse processes HTTP

python webscraping Scrapy

Scrapy使用正则表达式从页面文本中提取数字

我花了几个小时来了解如何搜索页面上的所有文本以及如果它与正则表达式匹配则提取它我的蜘蛛设置如下 def parse self response title response xpath title text extract units r

regex python27 Scrapy

安装 scrapy 清理失败

我一直在努力得到Scrapy使用 pip 安装以便抓取 NBA 赛季的赛程表和得分在过去的 6 个小时里我一直在努力尝试安装它我已经逐字按照设置说明进行操作但仍然无法使其正常工作任何帮助将不胜感激终端窗口输出如下非常感谢顺

python MacOS python27 installation Scrapy

用于检查大网址列表中损坏链接的 Python 工具

我有一个正在生产的搜索引擎为大约 700 000 个网址提供服务爬行是使用 Scrapy 完成的所有蜘蛛程序都使用 DeltaFetch 进行调度以便获取每日新链接我面临的困难是处理损坏的链接我很难找到一种定期扫描和删除损坏链接

python Scrapy

Scrapy 抓取 div 具有多个类？

我正在尝试使用产品类来获取 div 问题是一些具有 product 类的 div 也具有 product small 类所以当我使用xpath div class product 它仅捕获具有一个类的 div 而不捕获多个类的 di

python html xpath webscraping Scrapy

Scrapy 在爬行几页后停止爬行

我刚刚学习了 Scrapy 和网站爬虫的基础知识所以我非常感谢您的意见我在教程的指导下从 Scrapy 构建了一个简单明了的爬虫它工作正常但不会按应有的方式抓取所有页面我的蜘蛛代码是 from scrapy spider imp

python webscraping webcrawler Scrapy

Scrapy Splash不会执行lua脚本

我遇到了一个问题我的 Lua 脚本拒绝执行 ScrapyRequest 调用返回的响应似乎是 HTML 正文而我期待的是文档标题我假设 Lua 脚本从未被调用因为它似乎对响应没有明显影响我已经翻阅了很多文档但似乎不太明白这里缺少

Scrapy ScrapySplash splashjsrender

Scrapyd-Deploy：找不到 SPIDER_MODULES

我正在尝试使用 scrapy deploy 1 2 部署 scrapy 2 1 0 项目并收到此错误 scrapyd deploy example Library Frameworks Python framework Versions 3

Scrapy scrapyd scrapyddeploy

使用scrapyd部署项目出错

我的项目文件夹中有多个蜘蛛并且希望立即运行所有蜘蛛因此我决定使用 scrapyd 服务运行它们我开始这样做是因为看到here http scrapy readthedocs org en 0 7 topics scrapyd html

python Scrapy scrapyd

需要帮助来模拟 xhr 请求

我需要使用加载更多按钮来抓取网站这是我用 Python 编写的蜘蛛代码 import scrapy import json import requests import re from parsel import Selector f

python AJAX webscraping XMLHttpRequest Scrapy

Scrapy Image Pipeline：如何重命名图像？

我有一个蜘蛛可以获取数据和图像我想用我正在获取的相应标题重命名图像以下是我的代码蜘蛛1 py from imageToFileSystemCheck items import ImagetofilesystemcheckItem

image python3x Scrapy scrapypipeline

动态组装scrapy GET请求字符串

我一直在使用 firebug 并且有以下字典来查询 api url htp my url aspx top querystring dbkey x1 stype id s 27 headers accept text html applic

python Scrapy

Python：Scrapy CSV 导出不正确？

我只是想写入 csv 但是我有两个单独的 for 语句因此每个 for 语句的数据独立导出并破坏顺序建议 def parse self response hxs HtmlXPathSelector response titles hx

python csv export Scrapy

Scrapy：在一个请求失败时（例如404,500），如何请求另一个替代请求？

我有一个关于 scrapy 的问题在一个请求失败时例如404 500 如何请求另一个替代请求例如两个链接都可以获取价格信息其中一个失败则自动请求另一个在请求中使用 errback 例如 errback self error ha

python webscraping Scrapy httpstatuscode404

无法通过管道以自定义方式重命名下载的图像

我使用 python 的 scrapy 模块创建了一个脚本从 torrent 站点下载并重命名电影图像并将它们存储在 scrapy 项目内的文件夹中当我按原样运行脚本时我发现它正确地下载了该文件夹中的图像此时脚本正在使用 req

python webscraping Scrapy

在 scrapyd 中启用 HttpProxyMiddleware

阅读scrapy文档后我认为HttpProxyMiddleware是默认启用的但是当我通过 scrapyd 的 webservice 接口启动蜘蛛时 HttpProxyMiddleware 未启用我收到以下输出 2013 02 18

Scrapy scrapyd

有没有办法为每个蜘蛛使用单独的 scrapy 管道？

我想获取不同域下的网页这意味着我必须在命令 scrapycrawlmyspider 下使用不同的蜘蛛但是由于网页内容不同我必须使用不同的管道逻辑将数据放入数据库但对于每个蜘蛛来说它们必须经历在 settings py 中定义的所

python webscraping Scrapy

scrapy中如何根据url过滤重复请求

我正在使用 scrapy 和 CrawlSpider 为网站编写一个爬虫 Scrapy 提供了一个内置的重复请求过滤器可以根据 url 过滤重复请求另外我可以使用过滤请求rules爬行蜘蛛成员我想做的是过滤请求例如 http ww

python webcrawler Scrapy

psycopg2.errors.InFailedSqlTransaction：当前事务被中止，命令被忽略，直到事务块结束

我编写了一个 scrapy 程序来从站点抓取数据如果我抓取到 json 文件或 csv 文件该程序会成功抓取当我尝试抓取到 postgres 数据库时会出现问题下图显示了我收到的错误我该如何修复错误 def process ite

python python3x postgresql Scrapy psycopg2

XPath语法：如何根据父div获取子div信息

我的 scrapy 项目的结果如下所示 div class news li div div class news li div div class news li div div class news li div 每个 news li 类

html xpath Scrapy