抓取亚马逊时被阻止（即使有标头、代理、延迟）[关闭]

2023-11-24

我有一个Python代码来抓取亚马逊产品列表。我已经设置了代理和标头。我也有sleep()每次爬行之前。但是，我仍然无法获取数据。我收到的消息是：

要讨论自动访问亚马逊数据，请联系[电子邮件受保护]

我的部分代码是：

url = "https://www.amazon.com/Baby-Girls-Shoes/b/ref=sv_sl_fl_7239798011?ie=UTF8&node=7239798011"
headers = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64; rv:50.0) Gecko/20100101 Firefox/50.0'}
proxies_list = ["128.199.109.241:8080","113.53.230.195:3128","125.141.200.53:80","125.141.200.14:80","128.199.200.112:138","149.56.123.99:3128","128.199.200.112:80","125.141.200.39:80","134.213.29.202:4444"]
proxies = {'https': random.choice(proxies_list)}
time.sleep(0.5 * random.random())
r = requests.get(url, headers, proxies=proxies)
page_html = r.content
print page_html

这个问题与 Stackoverflow 上的其他问题并不重复，因为其他人建议使用代理、标头和延迟（睡眠），而我已经完成了所有这些工作。即使按照他们的建议，我也无法刮擦。

该代码最初可以工作，但在抓取几页后就停止工作了。

代替：

r = requests.get(url, headers, proxies=proxies)

Do:

r = requests.get(url, headers=headers, proxies=proxies)

这暂时解决了我的问题。希望该决议能够继续发挥作用。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

python27

webscraping

抓取亚马逊时被阻止（即使有标头、代理、延迟）[关闭] 的相关文章

Python有条件求解时滞微分方程

我在用dde23 of pydelay包来求解延迟微分方程我的问题如何有条件地编写方程例如目标方程有两个选项 when x gt 1 dx dt 0 25 x t tau 1 0 pow x t tau 10 0 0 1 x othe
Kivy - 文本换行工作错误

我正在尝试在 Kivy 1 8 0 应用程序中换行文本当没有太多文字时一切正常但如果文本很长并且窗口不是很大它只是剪切文本这是示例代码 vbox BoxLayout orientation vertical size hint y
for 循环如何评估其参数

我的问题很简单 Does a for循环评估它每次使用的参数 Such as for i in range 300 python 是否会为此循环的每次迭代创建一个包含 300 个项目的列表如果是的话这是避免这种情况的方法吗 lst ra
希伯来语中的稀疏句子标记化错误

尝试对希伯来语使用稀疏句子标记 import spacy nlp spacy load he doc nlp text sents list doc sents I get Warning no model found for he Onl
如何使用显式引用转储 YAML？

递归引用非常适合ruamel yaml or pyyaml ruamel yaml dump ruamel yaml load A A id001 id001 然而它显然不适用于普通引用 ruamel yaml dump ruamel
Tweepy StreamListener 到 CSV

我是 python 新手我正在尝试开发一个应用程序使用 Tweepy 和 Streaming API 从 Twitter 检索数据并将数据转换为 CSV 文件问题是此代码不会创建输出 CSV 文件也许是因为我应该将代码设置为在实现例
如何在 PyCharm 4.5.2 中使用 PyPy 作为标准/默认解释器？

如何在 PyCharm 4 5 2 中使用 PyPy 作为标准默认解释器一切都在 Ubunutu 14 10 下运行并且 pypy 已经安装您可以在项目的设置下进行配置这个官方文档直接涵盖了 https www jetbrains
根据开始列和结束列扩展数据框（速度）

我有一个pandas DataFrame含有start and end列加上几个附加列我想将此数据框扩展为一个时间序列从start值并结束于end值但复制我的其他专栏到目前为止我想出了以下内容 import pandas as
如何将 self 传递给装饰器？

我该如何通过self key下面进入装饰器 class CacheMix object def init self args kwargs super CacheMix self init args kwargs key func Cons
PyMC3-自定义 theano Op 进行数值积分

我使用 PyMC3 进行参数估计使用必须定义的特定似然函数我用谷歌搜索了一下发现我应该使用densitydist实现用户定义的似然函数的方法但它不起作用如何在 PyMC3 中合并用户定义的似然函数并找出最大 aposteriori
Pandas 滚动窗口 Spearman 相关性

我想使用滚动窗口计算 DataFrame 两列之间的 Spearman 和或 Pearson 相关性我努力了df corr df col1 rolling P corr df col2 P为窗口尺寸但我似乎无法定义该方法添加meth
如何使用 paramiko 查看（日志）文件传输进度？

我正在使用 Paramiko 的 SFTPClient 在主机之间传输文件我希望我的脚本打印文件传输进度类似于使用 scp 看到的输出 scp my file user host user host password my file 1
如何使用 sys.path.append 在 Python 中导入文件？

我的桌面上有两个目录 DIR1 and DIR2其中包含以下文件 DIR1 file1 py DIR2 file2 py myfile txt 这些文件包含以下内容 file1 py import sys sys path append s
由于 json 字符串化 dict 键导致数据丢失

考虑下面的例子 gt gt gt import json gt gt gt d 0 potato 0 spud gt gt gt json dumps d 0 potato 0 spud gt gt gt json loads json d
如何使用 Keras ImageDataGenerator 预测单个图像？

我已经训练 CNN 对图像进行 3 类分类在训练模型时我使用 keras 的 ImageDataGenerator 类对图像应用预处理功能并重新缩放它现在我的网络在测试集上训练得非常准确但我不知道如何在单图像预测上应用预处理功能如
Django 模型：如何使用 mixin 类来覆盖 django 模型以实现 save 等功能

我想在每次保存模型之前验证值所以我必须重写保存函数代码几乎是一样的我想把它写在 mixin 类中但失败了我不知道如何写 super func 我英语不好抱歉 class SyncableMixin object def sav
在 Django shell 会话期间获取 SQL 查询计数

有没有办法打印 Django ORM 在 Django shell 会话期间执行的原始 SQL 查询的数量 Django 调试工具栏已经提供了此类信息例如 5 QUERIES in 5 83MS但如何从 shell 中获取它并不明显您可
如何为所有用户安装 Anaconda python？

Anaconda python 发行版 https store continuum io cshop anaconda 非常方便地部署科学计算环境 SCE 并根据需要切换python版本默认情况下安装会将 python 定位到 anac
python sklearn中的fit方法

我问自己关于 sklearn 中拟合方法的各种问题问题1 当我这样做时 from sklearn decomposition import TruncatedSVD model TruncatedSVD svd 1 model fit X
如何获取所有mysql元组结果并转换为json

我能够从表中获取单个数据但是当我试图获取表上的所有数据时我只得到一行 cnn execute sql rows cnn fetchall column t 0 for t in cnn description for row in ro

随机推荐

手动创建委托与使用 Action/Func 委托

今天我想宣布这一点 private delegate double ChangeListAction string param1 int number 但为什么不使用这个 private Func
如何在 Objective C 中使用 XML 解析发布带有特殊字符和泰语的字符串？

我是 iOS 新手我面临着有关包含特殊字符的帖子字符串的问题我的代码在 DidFinishLoading 中是这样的 NSXMLParser myNSXMLParserPostObj NSXMLParser alloc initWith
如何让lucene不区分大小写

默认情况下单词 Word 和 word 不同如何让 Lucene 不区分大小写最简单的方法是将所有可搜索内容以及查询均小写请参阅LowerCaseFilter文档你也可以使用Wildcard查询不区分大小写的搜索因为它绕过了An
如何保留git中的文件权限？

我遇到了一个问题我花了很长时间才找到解决方案但仍然没有得到解决当我尝试通过 git 将我的网站部署到 Django 托管时我遇到的问题是数据库错误尝试写入只读数据库看来 git 会改变我的文件的权限从 777 到 755 但
Dart 中的 GestureDetector 与 google_maps_flutter

我在用着谷歌地图颤振并希望当用户在地图上执行手势时执行操作无论是缩放倾斜移动旋转但是我无法使用相机移动开始时财产在谷歌地图类因为它还可以识别引起的非手势用户操作以及编程动画我的应用程序使用的但无法据我所知请纠正我来区分它
如何在 XAML 中使用 C# 自定义子类？

这是我的问题我想在 MyWindow 中使用 SurfaceInkCanvas 的子类我创建了一个这样的 C 类 namespace MyNamespace public class SubSurfaceInkCanvas Surfac
在 10.9 上以编程方式启用对辅助设备的访问

我想在 10 9 上以编程方式启用对辅助设备的访问在 10 8 及更低版本中我使用以下 Applescript 来启用对辅助设备的访问 tell application System Events if UI elements enab
是否可以更改扩展WPF工具包的Busyindicator中的忙碌动画？

是否可以更改扩展WPF工具包的Busyindicator中的忙碌动画特别是我想将其更改为 gif 动画是的当然您可以定义自己的自定义内容文档繁忙指示器自定义内容示例
具有相同名称的控制器的 asp.net Web api 路由

我正在将我的项目与另一个项目集成 Multiple types were found that match the controller named XXXXX This can happen if the route that servi
persp3d 图的格式

我有以下 3d 图 With my data我用以下代码创建了它 library rugarch library rgl library fGarch fd lt as data frame modelfit which density c
适用于 Firefox 的 WebDriver：浏览器启动时为空页面，挂起 2 分钟，重新启动，然后测试运行。为什么？

我正在尝试更新我的 Java 测试套件以使用 Selenium 3 和 geckodriver 但是我在执行测试命令时看到了这种非常奇怪的行为 Firefox 将打开一个空白页面这样保持大约2分钟它关闭然后立即重新启动测试运行并通过
我可以打开一个套接字并将其传递给 Linux 中的另一个进程吗

在Linux中我是否可以打开一个套接字并将该套接字传递给另一个进程如果是您能告诉我在哪里可以找到示例吗谢谢是的你可以使用sendmsg 使用 SCM RIGHTS 从一个进程到另一个进程 SCM RIGHTS 发送或接收一组
在 ActionBarSherlock 中使用自定义布局构建 ActionMode

我刚刚开始使用 ActionBarSherlock 来构建一些简单的应用程序在我的第一个屏幕中我有简单的列表并添加了新的菜单项以将新项目添加到列表中 MenuItem newItem menu add New newItem setI
Entity Framework 4.1 - 刷新不是 Context 的成员

我正在尝试使用 Context Refresh 方法恢复 Context 更改但 Refresh 似乎不是 Context 的成员我正在使用 Microsoft ADO NET Entity Framework 4 1 RC 版本任何
C# CPU 和 GPU 温度

我正在为系统性能创建个人监控程序但在弄清楚 C 如何检索 CPU 和 GPU 温度信息时遇到问题我已经让程序通过 PerformanceCounter 检索 CPU 负载和频率信息以及各种其他信息但我无法找到 CPU 温度的实例对
python中urllib的响应时间

我想在使用时获得响应时间urllib 我做了下面的代码但它超过了响应时间我可以利用时间吗urllib或者有其他方法吗 import urllib import datetime def main urllist http google
java中如何调用抽象类方法

我想在我自己的类中调用抽象类的方法抽象类是 public abstract class Call public Connection getEarliestConnection Connection earliest null retur
在 Go 包中哪里放置测试的共享代码？ [复制]

这个问题在这里已经有答案了我有一个包含多个文件的 Go 包按照 Go 标准我正在为包中的每个源文件创建一个关联的测试文件就我而言不同的测试使用相同的测试帮助功能我不希望这些函数出现在包源文件中因为它仅用于测试目的我还想避免在
编辑文本最大长度并在 texview 中显示长度

我有一个编辑文本和一个文本视图我想在编辑文本中设置最大长度它显示在我的文本视图中每次用户输入字符时它都会减去字符数例如我将编辑文本的最大长度设置为 150 如果用户输入 150 个字符他她就无法再输入了如何解决这个问题设
抓取亚马逊时被阻止（即使有标头、代理、延迟）[关闭]

Closed 这个问题需要多问focused 目前不接受答案我有一个Python代码来抓取亚马逊产品列表我已经设置了代理和标头我也有sleep 每次爬行之前但是我仍然无法获取数据我收到的消息是要讨论自动访问亚马逊数据请联系

抓取亚马逊时被阻止（即使有标头、代理、延迟）[关闭]

抓取亚马逊时被阻止（即使有标头、代理、延迟）[关闭] 的相关文章

随机推荐

热门标签