我正在尝试使用 Beautiful Soup 从网站上抓取内容。在进行一些测试时,我得到以下输出(这只是最后的最后一位):
<!-- 6. Load the app -->
<my-app>
Loading...
</my-app>
</body>
</html>
“加载”部分就是我想要的。为什么 html 没有加载?如果我在谷歌中查看源代码,也会发生同样的事情。如果看不到代码我该如何抓取。
有问题的页面是:
https://searchusan.ama-assn.org/finder/usan/search/ https://searchusan.ama-assn.org/finder/usan/search/*/相关/1
谢谢。
Beautiful Soup 会加载页面首次呈现时看到的页面。不幸的是,您尝试抓取的页面使用 javascript,它会在初始页面加载后呈现您想要的信息。 Javascript 总是给 Beautiful Soup 带来问题,而我使用 javascript 所使用的唯一纯 Beautiful Soup 解决方案却极其繁琐、缓慢,并且容易崩溃/挂起。
我建议您使用像 Selenium with Beautiful Soup 这样的工具,它可以加载整个页面。
这是一个例子:Python 使用 Selenium 和 Beautiful Soup 抓取 JavaScript https://stackoverflow.com/questions/14529849/python-scraping-javascript-using-selenium-and-beautiful-soup
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)