我有一个Python代码来抓取亚马逊产品列表。我已经设置了代理和标头。我也有sleep()
每次爬行之前。但是,我仍然无法获取数据。我收到的消息是:
要讨论自动访问亚马逊数据,请联系[电子邮件受保护]
我的部分代码是:
url = "https://www.amazon.com/Baby-Girls-Shoes/b/ref=sv_sl_fl_7239798011?ie=UTF8&node=7239798011"
headers = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64; rv:50.0) Gecko/20100101 Firefox/50.0'}
proxies_list = ["128.199.109.241:8080","113.53.230.195:3128","125.141.200.53:80","125.141.200.14:80","128.199.200.112:138","149.56.123.99:3128","128.199.200.112:80","125.141.200.39:80","134.213.29.202:4444"]
proxies = {'https': random.choice(proxies_list)}
time.sleep(0.5 * random.random())
r = requests.get(url, headers, proxies=proxies)
page_html = r.content
print page_html
这个问题与 Stackoverflow 上的其他问题并不重复,因为其他人建议使用代理、标头和延迟(睡眠),而我已经完成了所有这些工作。即使按照他们的建议,我也无法刮擦。
该代码最初可以工作,但在抓取几页后就停止工作了。
代替:
r = requests.get(url, headers, proxies=proxies)
Do:
r = requests.get(url, headers=headers, proxies=proxies)
这暂时解决了我的问题。希望该决议能够继续发挥作用。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)