我有一个网站,我想单击一个按钮,然后使用 python 抓取该网站,按钮之间的 html 代码是:
<span id="exchange-testing" class="exchange-input nav-link" data track="&lid=testing&lpos=site_settings" data-value="testing">Testing</span>
这可能吗?我可以从页面中抓取我需要的所有数据,但我需要先单击按钮。
任何帮助,将不胜感激
基本上,您有两种选择:
高层次方法:使用自动化真正的浏览器selenium或者,换句话说,让浏览器重复访问包含所需数据的页面所需的所有用户操作。
低级方法:当您单击按钮时,请调查幕后发生的情况 - 浏览浏览器开发人员工具的“网络”选项卡并查看正在发出哪些请求。然后,在刮刀中模拟它们。在这里,您可以考虑使用类似的工具requests, mechanize用于提出请求、处理抓取会话、提交表单等以及诸如BeautifulSoup, lxml.html用于html解析。还,Scrapy网络抓取框架是必看的。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)