我需要帮助阅读网页内容。目前我正在使用以下方法来读取内容
BufferedReader in = new BufferedReader(new InputStreamReader(page.openStream()));
String inputLine;
while ((inputLine = in.readLine()) != null)
{Content = Content + inputLine;}
然而这种方法有一个问题。 。一些jsp页面中有ajax,它会随机更新网页的css类,如下所示
Javascript 代码只是为了提供一个想法:
if (request.readyState === 4 && request.status === 200)
{
var type = request.getResponseHeader("Content-Type");
$('.update').empty();
$('.update').append(request.responseText); //update the css class
}
因此,当这个页面阅读器通过我上面提到的 java 方法读取时,我就得到了
<div class="update"></div>
虽然在屏幕上这个类有一个值。
但是现在,如果我先保存页面(在 Firefox 中单击“另存为”),则 jquery 在 CSS 类中附加的值也可见。
有没有一种方法或方法可以让我读取值或像 Firefox 那样通过保存页面来获取值。我想使用字符串中存在的 Ajax 值来读取整个网页的内容。
一方面,我读到这很困难,因为 JAvascript 是由浏览器渲染和执行的,所以我想知道 Firefox 是否有任何可能有帮助的 api?任何建议,将不胜感激。
您可能会发现以下项目很有用:
- HTMLUnit http://htmlunit.sourceforge.net/gettingStarted.html
这里还有一个内容丰富的博客文章 http://blog.databigbang.com/web-scraping-ajax-and-javascript-sites/来自数据大爆炸。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)