我试图将网页上的所有可读单词保存到一个文本文档中,同时忽略 html 标记。
使用 JSoup 解析网页上的所有单词,我对如何从代码中分离真实单词的唯一猜测是通过元素。
是否可以将 jsoup 文档的多个元素转换为文本文件?
i.e.:
Elements titles = doc.select("title");
Elements paragraphs = doc.select("p");
Elements links = doc.select("a[href]");
Elements smallText = doc.select("a");
目前将解析保存为文档:
Document doc = Jsoup.connect("https:// (enter a url)").get();
其简单的方法
Document doc = Jsoup.connect("https:// (enter a url)").get();
BufferedWriter writer = null;
try
{
writer = new BufferedWriter( new FileWriter("d://test.txt"));
writer.write(doc.toString());
}
catch ( IOException e)
{
}
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)