我想要抓取的网站使用 JavaScript 填充返回。
我可以简单地以某种方式调用脚本并处理其结果吗? (当然,没有分页。)我不想运行整个过程来抓取生成的格式化 HTML,但原始源是空白的。
看一看:
回报的来源很简单
<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="/templates/base_template.xsl"?>
<content>
<head>
<SCRIPT type="text/javascript" src="/js/searchResultsView.js"></SCRIPT>
</head>
<whitebox>
<div id = "hits"></div>
</whitebox>
</content>
我更喜欢简单的 Python 工具。
我下载了Selenium https://pypi.python.org/pypi/selenium and Chrome驱动程序 https://code.google.com/p/selenium/wiki/ChromeDriver.
from selenium import webdriver
driver = webdriver.Chrome()
driver.get('http://kozbeszerzes.ceu.hu/searchresults.xhtml?q=1998&page=0')
for e in driver.find_elements_by_class_name('result'):
link = e.find_element_by_tag_name('a')
print(link.text.encode('ascii', 'ignore'), link.get_attribute('href').encode('ascii', 'ignore'))
driver.quit()
如果您使用 Chrome,则可以使用 F12 检查页面属性,这非常有用。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)