抓取亚马逊时被阻止(即使有标头、代理、延迟)[关闭]

2023-11-24

我有一个Python代码来抓取亚马逊产品列表。我已经设置了代理和标头。我也有sleep()每次爬行之前。但是,我仍然无法获取数据。我收到的消息是:

要讨论自动访问亚马逊数据,请联系[电子邮件受保护]

我的部分代码是:

url = "https://www.amazon.com/Baby-Girls-Shoes/b/ref=sv_sl_fl_7239798011?ie=UTF8&node=7239798011"
headers = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64; rv:50.0) Gecko/20100101 Firefox/50.0'}
proxies_list = ["128.199.109.241:8080","113.53.230.195:3128","125.141.200.53:80","125.141.200.14:80","128.199.200.112:138","149.56.123.99:3128","128.199.200.112:80","125.141.200.39:80","134.213.29.202:4444"]
proxies = {'https': random.choice(proxies_list)}
time.sleep(0.5 * random.random())
r = requests.get(url, headers, proxies=proxies)
page_html = r.content
print page_html

这个问题与 Stackoverflow 上的其他问题并不重复,因为其他人建议使用代理、标头和延迟(睡眠),而我已经完成了所有这些工作。即使按照他们的建议,我也无法刮擦。

该代码最初可以工作,但在抓取几页后就停止工作了。


代替:

r = requests.get(url, headers, proxies=proxies)

Do:

r = requests.get(url, headers=headers, proxies=proxies)

这暂时解决了我的问题。希望该决议能够继续发挥作用。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

抓取亚马逊时被阻止(即使有标头、代理、延迟)[关闭] 的相关文章

  • Python有条件求解时滞微分方程

    我在用dde23 of pydelay包来求解延迟微分方程 我的问题 如何有条件地编写方程 例如目标方程有两个选项 when x gt 1 dx dt 0 25 x t tau 1 0 pow x t tau 10 0 0 1 x othe
  • Kivy - 文本换行工作错误

    我正在尝试在 Kivy 1 8 0 应用程序中换行文本 当没有太多文字时 一切正常 但如果文本很长并且窗口不是很大 它只是剪切文本 这是示例代码 vbox BoxLayout orientation vertical size hint y
  • for 循环如何评估其参数

    我的问题很简单 Does a for循环评估它每次使用的参数 Such as for i in range 300 python 是否会为此循环的每次迭代创建一个包含 300 个项目的列表 如果是的话 这是避免这种情况的方法吗 lst ra
  • 希伯来语中的稀疏句子标记化错误

    尝试对希伯来语使用稀疏句子标记 import spacy nlp spacy load he doc nlp text sents list doc sents I get Warning no model found for he Onl
  • 如何使用显式引用转储 YAML?

    递归引用非常适合ruamel yaml or pyyaml ruamel yaml dump ruamel yaml load A A id001 id001 然而 它 显然 不适用于普通引用 ruamel yaml dump ruamel
  • Tweepy StreamListener 到 CSV

    我是 python 新手 我正在尝试开发一个应用程序 使用 Tweepy 和 Streaming API 从 Twitter 检索数据并将数据转换为 CSV 文件 问题是此代码不会创建输出 CSV 文件 也许是因为我应该将代码设置为在实现例
  • 如何在 PyCharm 4.5.2 中使用 PyPy 作为标准/默认解释器?

    如何在 PyCharm 4 5 2 中使用 PyPy 作为标准 默认解释器 一切都在 Ubunutu 14 10 下运行 并且 pypy 已经安装 您可以在项目的设置下进行配置 这个官方文档直接涵盖了 https www jetbrains
  • 根据开始列和结束列扩展数据框(速度)

    我有一个pandas DataFrame含有start and end列 加上几个附加列 我想将此数据框扩展为一个时间序列 从start值并结束于end值 但复制我的其他专栏 到目前为止 我想出了以下内容 import pandas as
  • 如何将 self 传递给装饰器?

    我该如何通过self key下面进入装饰器 class CacheMix object def init self args kwargs super CacheMix self init args kwargs key func Cons
  • PyMC3-自定义 theano Op 进行数值积分

    我使用 PyMC3 进行参数估计 使用必须定义的特定似然函数 我用谷歌搜索了一下 发现我应该使用densitydist实现用户定义的似然函数的方法 但它不起作用 如何在 PyMC3 中合并用户定义的似然函数并找出最大 aposteriori
  • Pandas 滚动窗口 Spearman 相关性

    我想使用滚动窗口计算 DataFrame 两列之间的 Spearman 和 或 Pearson 相关性 我努力了df corr df col1 rolling P corr df col2 P为窗口尺寸 但我似乎无法定义该方法 添加meth
  • 如何使用 paramiko 查看(日志)文件传输进度?

    我正在使用 Paramiko 的 SFTPClient 在主机之间传输文件 我希望我的脚本打印文件传输进度 类似于使用 scp 看到的输出 scp my file user host user host password my file 1
  • 如何使用 sys.path.append 在 Python 中导入文件?

    我的桌面上有两个目录 DIR1 and DIR2其中包含以下文件 DIR1 file1 py DIR2 file2 py myfile txt 这些文件包含以下内容 file1 py import sys sys path append s
  • 由于 json 字符串化 dict 键导致数据丢失

    考虑下面的例子 gt gt gt import json gt gt gt d 0 potato 0 spud gt gt gt json dumps d 0 potato 0 spud gt gt gt json loads json d
  • 如何使用 Keras ImageDataGenerator 预测单个图像?

    我已经训练 CNN 对图像进行 3 类分类 在训练模型时 我使用 keras 的 ImageDataGenerator 类对图像应用预处理功能并重新缩放它 现在我的网络在测试集上训练得非常准确 但我不知道如何在单图像预测上应用预处理功能 如
  • Django 模型:如何使用 mixin 类来覆盖 django 模型以实现 save 等功能

    我想在每次保存模型之前验证值 所以 我必须重写保存函数 代码几乎是一样的 我想把它写在 mixin 类中 但失败了 我不知道如何写 super func 我英语不好 抱歉 class SyncableMixin object def sav
  • 在 Django shell 会话期间获取 SQL 查询计数

    有没有办法打印 Django ORM 在 Django shell 会话期间执行的原始 SQL 查询的数量 Django 调试工具栏已经提供了此类信息 例如 5 QUERIES in 5 83MS但如何从 shell 中获取它并不明显 您可
  • 如何为所有用户安装 Anaconda python?

    Anaconda python 发行版 https store continuum io cshop anaconda 非常方便地部署科学计算环境 SCE 并根据需要切换python版本 默认情况下 安装会将 python 定位到 anac
  • python sklearn中的fit方法

    我问自己关于 sklearn 中拟合方法的各种问题 问题1 当我这样做时 from sklearn decomposition import TruncatedSVD model TruncatedSVD svd 1 model fit X
  • 如何获取所有mysql元组结果并转换为json

    我能够从表中获取单个数据 但是当我试图获取表上的所有数据时 我只得到一行 cnn execute sql rows cnn fetchall column t 0 for t in cnn description for row in ro

随机推荐

  • 手动创建委托与使用 Action/Func 委托

    今天我想宣布这一点 private delegate double ChangeListAction string param1 int number 但为什么不使用这个 private Func
  • 如何在 Objective C 中使用 XML 解析发布带有特殊字符和泰语的字符串?

    我是 iOS 新手 我面临着有关包含特殊字符的帖子字符串的问题 我的代码在 DidFinishLoading 中是这样的 NSXMLParser myNSXMLParserPostObj NSXMLParser alloc initWith
  • 如何让lucene不区分大小写

    默认情况下 单词 Word 和 word 不同 如何让 Lucene 不区分大小写 最简单的方法是将所有可搜索内容以及查询均小写 请参阅LowerCaseFilter文档 你也可以使用Wildcard查询不区分大小写的搜索 因为它绕过了An
  • 如何保留git中的文件权限?

    我遇到了一个问题 我花了很长时间才找到解决方案 但仍然没有得到解决 当我尝试通过 git 将我的网站部署到 Django 托管时 我遇到的问题是 数据库错误 尝试写入只读数据库 看来 git 会改变我的文件的权限 从 777 到 755 但
  • Dart 中的 GestureDetector 与 google_maps_flutter

    我在用着谷歌地图颤振并希望当用户在地图上执行手势时执行操作 无论是缩放 倾斜 移动 旋转 但是我无法使用相机移动开始时财产在谷歌地图类因为它还可以识别引起的非手势用户操作以及编程动画 我的应用程序使用的 但无法 据我所知 请纠正我 来区分它
  • 如何在 XAML 中使用 C# 自定义子类?

    这是我的问题 我想在 MyWindow 中使用 SurfaceInkCanvas 的子类 我创建了一个这样的 C 类 namespace MyNamespace public class SubSurfaceInkCanvas Surfac
  • 在 10.9 上以编程方式启用对辅助设备的访问

    我想在 10 9 上以编程方式启用对辅助设备的访问 在 10 8 及更低版本中 我使用以下 Applescript 来启用对辅助设备的访问 tell application System Events if UI elements enab
  • 是否可以更改扩展WPF工具包的Busyindicator中的忙碌动画?

    是否可以更改扩展WPF工具包的Busyindicator中的忙碌动画 特别是 我想将其更改为 gif 动画 是的当然 您可以定义自己的自定义内容 文档 繁忙指示器自定义内容示例
  • 具有相同名称的控制器的 asp.net Web api 路由

    我正在将我的项目与另一个项目集成 Multiple types were found that match the controller named XXXXX This can happen if the route that servi
  • persp3d 图的格式

    我有以下 3d 图 With my data我用以下代码创建了它 library rugarch library rgl library fGarch fd lt as data frame modelfit which density c
  • 适用于 Firefox 的 WebDriver:浏览器启动时为空页面,挂起 2 分钟,重新启动,然后测试运行。为什么?

    我正在尝试更新我的 Java 测试套件以使用 Selenium 3 和 geckodriver 但是 我在执行测试命令时看到了这种非常奇怪的行为 Firefox 将打开一个空白页面 这样保持大约2分钟 它关闭然后立即重新启动 测试运行并通过
  • 我可以打开一个套接字并将其传递给 Linux 中的另一个进程吗

    在Linux中 我是否可以打开一个套接字并将该套接字传递给另一个进程 如果是 您能告诉我在哪里可以找到示例吗 谢谢 是的 你可以 使用sendmsg 使用 SCM RIGHTS 从一个进程到另一个进程 SCM RIGHTS 发送或接收一组
  • 在 ActionBarSherlock 中使用自定义布局构建 ActionMode

    我刚刚开始使用 ActionBarSherlock 来构建一些简单的应用程序 在我的第一个屏幕中 我有简单的列表 并添加了新的菜单项以将新项目添加到列表中 MenuItem newItem menu add New newItem setI
  • Entity Framework 4.1 - 刷新不是 Context 的成员

    我正在尝试使用 Context Refresh 方法恢复 Context 更改 但 Refresh 似乎不是 Context 的成员 我正在使用 Microsoft ADO NET Entity Framework 4 1 RC 版本 任何
  • C# CPU 和 GPU 温度

    我正在为系统性能创建个人监控程序 但在弄清楚 C 如何检索 CPU 和 GPU 温度信息时遇到问题 我已经让程序通过 PerformanceCounter 检索 CPU 负载和频率信息 以及各种其他信息 但我无法找到 CPU 温度的实例 对
  • python中urllib的响应时间

    我想在使用时获得响应时间urllib 我做了下面的代码 但它超过了响应时间 我可以利用时间吗urllib或者有其他方法吗 import urllib import datetime def main urllist http google
  • java中如何调用抽象类方法

    我想在我自己的类中调用抽象类的方法 抽象类是 public abstract class Call public Connection getEarliestConnection Connection earliest null retur
  • 在 Go 包中哪里放​​置测试的共享代码? [复制]

    这个问题在这里已经有答案了 我有一个包含多个文件的 Go 包 按照 Go 标准 我正在为包中的每个源文件创建一个关联的测试文件 就我而言 不同的测试使用相同的测试帮助功能 我不希望这些函数出现在包源文件中 因为它仅用于测试目的 我还想避免在
  • 编辑文本最大长度并在 texview 中显示长度

    我有一个编辑文本和一个文本视图 我想在编辑文本中设置最大长度 它显示在我的文本视图中 每次用户输入字符时 它都会减去字符数 例如 我将编辑文本的最大长度设置为 150 如果用户输入 150 个字符 他 她就无法再输入了 如何解决这个问题 设
  • 抓取亚马逊时被阻止(即使有标头、代理、延迟)[关闭]

    Closed 这个问题需要多问focused 目前不接受答案 我有一个Python代码来抓取亚马逊产品列表 我已经设置了代理和标头 我也有sleep 每次爬行之前 但是 我仍然无法获取数据 我收到的消息是 要讨论自动访问亚马逊数据 请联系