将 Tor 与 scrapy 框架结合使用

2024-04-11

我正在尝试抓取网站，该网站足够复杂以阻止机器人，我的意思是它只允许几个请求，之后 Scrapy 挂起。

问题1：有没有办法，如果Scrapy挂起，我可以从同一点重新启动我的爬行过程。为了摆脱这个问题，我这样写了我的设置文件

BOT_NAME = 'MOZILLA'
BOT_VERSION = '7.0'

SPIDER_MODULES = ['yp.spiders']
NEWSPIDER_MODULE = 'yp.spiders'
DEFAULT_ITEM_CLASS = 'yp.items.YpItem'
USER_AGENT = '%s/%s' % (BOT_NAME, BOT_VERSION)

DOWNLOAD_DELAY = 0.25
DUPEFILTER=True
COOKIES_ENABLED=False
RANDOMIZE_DOWNLOAD_DELAY=True
SCHEDULER_ORDER='BFO'

这是我的程序：

class ypSpider(CrawlSpider):

   name = "yp"


   start_urls = [
       SOME URL

   ]
   rules=(
      #These are some rules
   )
   def parse_item(self, response):
   ####################################################################
   #cleaning the html page by removing scripts html tags    
   #######################################################
   hxs=HtmlXPathSelector(response)

问题是我可以在哪里编写http代理，我是否必须导入任何与tor相关的类，我是Scrapy的新手，因为在这个小组中我学到了很多东西，现在我正在尝试学习“如何使用ip旋转或tor”

正如我们的一位成员所建议的，我启动了 tor 并将 HTTP_PROXY 设置为

set http_proxy=http://localhost:8118

但它抛出了一些错误，

failure with no frames>: class 'twisted.internet.error.ConnectionRefusedError'   Connection was refused by other side 10061: No connection could be made because the target machine actively refused it.

所以我将 http_proxy 更改为

set http_proxy=http://localhost:9051

现在错误是

failure with no frames>: class 'twisted.internet.error.ConnectionDone' connection was closed cleanly.

我检查了 Firefox 网络设置，在那里我看不到任何 http 代理，但它使用的是 SOCKSV5，而是显示 127.0.0.1:9051。（在 TOR 之前，它不需要代理）请帮助我，我仍然不明白如何通过 Scrapy 使用 TOR。我应该使用哪个 TOR 包以及如何使用？我希望我的两个问题都能得到解决

如果 scrapy 爬虫由于某种原因挂起（连接失败），我想从那里恢复服务本身
如何在Scrapy中使用轮换IP

TOR 本身不是 http 代理，端口 8118 和连接拒绝错误表明您没有正确运行 privoxy[1]。尝试正确设置 privoxy，然后使用环境变量重试http_proxy=http://localhost:8118.

我已经使用 privoxy 和 scrapy 成功完成了 TOR 爬行。

[1] http://www.privoxy.org/ http://www.privoxy.org/

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

将 Tor 与 scrapy 框架结合使用的相关文章

Python 和 Numpy 是 nan 和 set

我在使用 Python 的 Numpy set 和 NaN 非数字时遇到了不可预测的行为 gt gt gt set np float64 nan np float64 nan set nan nan gt gt gt set np flo
Tkinter：消息小部件中锚点选项的正确值是多少？

我一直在学习 tkinterTkinter 中的消息小部件 https python course eu tkinter message widget in tkinter php at Python 课程和教程 https python
使用 pandas.date_range() 生成多个日期时间，每周两个日期

我在用着pd date range start date end date freq W MON 每周一生成每周频率日期时间start date 2017 01 01 and end date 2017 12 31 这意味着每月大约生成 4
将 yerr/xerr 绘制为阴影区域而不是误差线

在 matplotlib 中如何将误差绘制为阴影区域而不是误差条例如而不是忽略示例图中各点之间的平滑插值这需要进行一些手动插值或者只是获得更高分辨率的数据您可以使用pyplot fill between https matpl
如何使用 python 的 http.client 准确读取一个响应块？

Using http client在 Python 3 3 或任何其他内置 python HTTP 客户端库中如何一次读取一个分块 HTTP 响应一个 HTTP 块我正在扩展现有的测试装置使用 python 编写 http clie
McNemar 在 Python 中的测试以及分类机器学习模型的比较 [关闭]

Closed 此问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案有没有用 Python 实现的好的 McNemar 测试我在 Scipy stats 或 Scikit
数据框 - 平均列

我在 pandas 中有以下数据框 Column 1 Column 2 Column3 Column 4 2 2 2 4 1 2 2 3 我正在创建一个数据框其中包含第 1 列和第 2 列第 3 列和第 4 列等的平均值 ColumnA
如何使用 Python boto3 获取 redshift 中的列名称

我想使用 python boto3 获取 redshift 中的列名称创建Redshift集群将数据插入其中配置的机密管理器配置 SageMaker 笔记本打开Jupyter Notebook写入以下代码 import boto3
python array(10,1) 和 array(10,) 之间的区别

我正在尝试将 MNIST 数据集加载到数组中当我使用 X train y train X test y test mnist load data 我得到一个数组 y test 10000 但我希望它的形状为 10000 1 数组 1000
检查 python 中命令行参数的数量

我是蟒蛇新手还是把脚弄湿了我正在尝试做这样的事情 import sys if len sys argv lt 3 or lt len sys argv gt 3 print This script will compare two fi
为什么第二个 request.session cookies 返回空？

我想使用 requests Session post 登录网站但是当我已经登录主页然后进入帐户页面时看来cookies还没有保存因为cookies是空的而且我无法进入正确的帐户页面 import requests from bs4
如何获取numpy.random.choice的索引？ - Python

是否可以修改 numpy random choice 函数以使其返回所选元素的索引基本上我想创建一个列表并随机选择元素而不进行替换 import numpy as np gt gt gt a 1 4 1 3 3 2 1 4 gt gt
仅当某些值相等时，如何才能将一个文本文件中的值替换为另一个文本文件中的其他值？

我有一个名为finalscores txt我想创建一个 python 脚本它将打开它并从两个单独的列中读取值这是我的finalscores txt file Atom nVa predppm avgppm stdev delta QPr
Jupyter 笔记本中未显示绘图图表

我已经尝试解决这个问题几个小时了我按照上面的步骤操作情节网站 https plot ly python getting started start plotting online并且图表仍然没有显示在笔记本中这是我的情节代码 color
使用seaborn绘制简单线图

我正在尝试使用seaborn python 绘制ROC曲线对于 matplotlib 我只需使用该函数plot plt plot one minus specificity sensitivity bs where one minus s
为正则表达式编写解析器

即使经过多年的编程我很羞愧地说我从未真正完全掌握正则表达式一般来说当问题需要正则表达式时我通常可以在一堆引用语法之后想出一个合适的正则表达式但我发现自己越来越频繁地使用这种技术所以自学并理解正则表达式properly 我决
将字符串中的随机字符转换为大写

我尝试随机附加文本字符串这样就不只是有像这样的输出 gt gt gt david 我最终会得到类似的东西 gt gt gt DaViD gt gt gt dAviD 我现在的代码是这样的 import random import stri
基于值而不是类型的单次调度

我在 Django 上构建 SPA 并且有一个庞大的功能其中包含许多功能if用于检查我的对象字段的状态名称的语句像这样 if self state new do some logic if self state archive do s
如何通过函数注释指示函数需要函数作为参数，或返回函数？

您可以使用函数注释 http www python org dev peps pep 3107 在python 3中指示参数和返回值的类型如下所示 def myfunction name str age int gt str return
Jupyter Notebook：带有小部件的交互式绘图

我正在尝试生成一个依赖于小部件的交互式绘图我遇到的问题是当我使用滑块更改参数时会在前一个绘图之后完成一个新绘图而我预计只有一个绘图会根据参数发生变化 Example from ipywidgets import interact i

随机推荐

具有多个控件和 generic.xaml 的自定义控件库

如果我在一个自定义控件库中为两个不同的控件定义两种默认样式我会收到错误一个库中是否可以有两个或多个具有默认 generic xaml 的控件 Thanks 对的这是可能的推荐的方法是将每个控件的样式放置在其自己的资源字典中并拥有一
返回用于在 using C# 中使用的变量

我返回在 using 语句内的 using 语句中创建的变量听起来很有趣 public DataTable foo using DataTable properties new DataTable do something return
如何在 MVC3 中使用 ViewBag 更改或刷新数据

我想使用 ViewBag 刷新视图中的数据是否有可能或者我可以使用其他技术这是我的示例代码在我的视图页面中家庭详情 ViewBag Details 0 Name 在我的控制器中 public ActionResult FamilyD
使用命名范围依赖于下拉列表值的文本框值的 Excel VBA 代码

我拥有的我有一个 Excel VBA 自定义用户表单该表单包含一个下拉列表行业类别和文本框对应行业规范者对于每个行业类别有一个行业规范者该类别的缩写版本 The 行业类别 and 行业规范者将始终位于同一行下拉列表由单元格名
iPhone - 如何在按下按钮时制作动画？

有没有办法在点击 iPhone 按钮时制作自定义动画我想要类似 App Store 按钮的东西它会显示价格然后当您单击它时它会改变颜色并且文本会更改为立即购买然后当您再次单击它时它会完成购买 UIViewAnimationTr
如何从 java 类（在 Lucee 中）中的方法返回 Coldfusion 结构？

我正在编写一个java类并且想从方法返回一个coldfusion结构结构扩展了映射和其他东西我不是 Java 程序员所以我不知道如何解决这个问题这是 lucee java 文档 http javadoc lucee org 当我尝
如何使用Java将生成的PDF文件保存到MySQL数据库？

我有一个 Java 类它使用以下命令生成 PDF 文件iText https itextpdf com en图书馆现在根据我的需要我必须将生成的 PDF 文件保存到 MySQL 数据库表中但我不知道该怎么做我的担忧是 what d
Flutter 中的 Widgets 库错误捕获异常

我在 Flutter 中有这个应用程序它有两个类来生成笔记列表这是主类 MyApp 类 import package flutter cupertino dart import package flutter material dart
使用 jQuery.load('url.html') 确定插入图像后何时加载图像

我目前有与此类似的东西它在目标页面上加载一个包含图像的 div a galleryNext click function chnage the image to loading info html LOADING currentGal l
SQL Server dbo.sysdiagrams 是用户表或系统表

当在简单数据库中使用数据库图时 SQL Server 在以下位置创建一个 dbo sysdiagrams 表 Table Systam Tables节点在 Microsoft Management Studio Object Explor
使用自定义颜色代码设置面板背景

在 WPF 中我可以使用以下代码设置堆栈面板的背景 stackPanelFlasher Background Brushes Aqua 例如如何将颜色设置为十六进制颜色代码 C7DFFC BrushConverter bc new Br
延迟加载插件 (jQuery)

a lightbox hover function if jQuery lightbox required otherwise lightbox js will be loaded on hover each time a lightbox
我的 CryptoJS 加密/解密不起作用

我有一个 JSON 数组数组我尝试使用 CryptoJS 对其值进行加密然后打印以在另一个文件中使用其中这些值应使用用户给定的密码进行解密但我做错了什么在解密 URL 时收到未捕获错误格式错误的 UTF 8 数据加密 js
将时间列拆分为开始时间/结束时间列

我有一张表格其中包含有关他们全天所做工作的信息我需要获取每个任务的开始时间结束时间目前我能够提取每个任务的时间戳但我希望创建开始时间和结束时间列开始时间是前一行的时间戳结束时间是当前行的时间戳有什么简单的方法可以做
iOS - WebView 和字符串

我有一个名为 htmlString 的字符串其中包含一些 html 格式的信息我需要将这些信息放入加载整个 html 字符串包含颜色和字体的 webView 中我需要知道弦的高度我能怎么做你想做类似的事情 webView lo
检查表达式树中的类型转换？

我正在使用 Expression 创建一些动态生成的代码我的解决方案有效但有一个功能除外我想要进行检查类型转换如果转换失败则会抛出 TypeCastException 我找到了 Expression TypeAs 它执行类型转换
将 iOS 9 Today 扩展转换为 iOS 10 的尺寸问题

晚上好我在理解今天的扩展时遇到了很大的问题我读过很多教程和介绍但没有任何帮助我理解这个问题在 iOS 9 上该扩展可以正常工作在 iOS 10 上则不行我的大问题是 iOS 10 中小部件的自动调整大小在 iOS 9 上小
如何将引导程序形式的输入与输入组插件对齐？

我有一个非常简单的 Bootstrap 3 表单当我不使用它时我可以轻松自动对齐input group addons 在我的表单中使用它们后无法对齐它由于添加了插件带有插件的线更宽
了解 cassandra 复制因子与一致性级别

我想澄清 Cassandra 中复制因子和一致性级别的基本概念如果有人可以回答以下问题我们将不胜感激 RF 复制因子 RC 读一致性 WC 写一致性 2 个 cassandra 节点例如 A B RF 1 RC ONE WC ONE
将 Tor 与 scrapy 框架结合使用

我正在尝试抓取网站该网站足够复杂以阻止机器人我的意思是它只允许几个请求之后 Scrapy 挂起问题1 有没有办法如果Scrapy挂起我可以从同一点重新启动我的爬行过程为了摆脱这个问题我这样写了我的设置文件 BOT NAME

将 Tor 与 scrapy 框架结合使用

将 Tor 与 scrapy 框架结合使用 的相关文章

随机推荐

热门标签

将 Tor 与 scrapy 框架结合使用的相关文章