抓取大量带有 url 的 Google Scholar 页面

2024-01-03

我正在尝试使用 BeautifulSoup 从 Google 学者的作者那里获取所有出版物的完整作者列表。由于作者的主页只有每篇论文的作者列表,因此我必须打开论文的链接才能获取完整列表。结果,我每隔几次尝试就会遇到验证码。

有没有办法避免验证码(例如每次请求后暂停 3 秒)?或者让原始的 Google Scholar 个人资料页面显示完整的作者列表?


最近我遇到了类似的问题。我至少通过实施一个简单的解决方法简化了我的收集过程random and 相当持久像这样睡觉:

import time
import numpy as np

time.sleep((30-5)*np.random.random()+5) #from 5 to 30 seconds

如果您有足够的时间(假设在晚上启动解析器),您可以进行更大的暂停(大 3 倍以上)以确保您不会收到验证码。

此外,您还可以随机更改user-agent包含在您对网站的请求中,这将使您更加蒙蔽。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

抓取大量带有 url 的 Google Scholar 页面 的相关文章

随机推荐