因此,我有一个从数据库中提取的 URL 列表,我需要抓取并解析每个 URL 的 JSON 响应。某些 URL 返回 null,而其他 URL 返回发送到 csv 文件的信息。我目前正在使用Scrapy,但是抓取这12000个URL大约需要4个小时。我研究过类似的事情, , and frontera https://github.com/scrapinghub/frontera,但我不确定这些是否适合我的用例,因为它们似乎是围绕抓取网站上找到的 URL 进行的。
对于单台机器上抓取的如此数量的 URL,4 小时是“正常”时间吗?或者是否有任何可能更适合我的软件包,在抓取页面时没有“以下”链接?
URL 和输出彼此独立吗?您可以设置 Python 多重处理,并并行执行此操作,然后在最后合并输出。进程数量由您决定,但允许您使用机器的 1 个以上核心。
https://docs.python.org/2/library/multiprocessing.html https://docs.python.org/2/library/multiprocessing.html
另外,您是否需要加载内容,或者您可以只使用响应代码来告诉您服务器是否在该 URL 上响应等。
如果您要做大量此类工作,并且想要快速处理,Golang 对 Web 服务和并行化具有出色的支持。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)