使用 jsoup 将 HTML 解析为格式化的纯文本

2023-11-30

我正在开发一个 Maven 项目,该项目允许我解析网站中的 html 数据。我能够使用下面的代码解析它:

public void parseData(){
        String url = "http://stackoverflow.com/help/on-topic";
        try {
            Document doc = Jsoup.connect(url).get();
            Element essay = doc.select("div.col-section").first();
            String essayText = essay.text();
            jTextAreaAdem.setText(essayText);


        } catch (IOException ex) {
            Logger.getLogger(formAdem.class.getName()).log(Level.SEVERE, null, ex);
        }
    }

到目前为止我没有任何问题。我可以解析html数据。 我使用 jsoup 中的 select 方法并使用“div.col-section”检索数据,这意味着我正在寻找类为 col-section 的 div 元素。 我想在文本区域中打印数据。尽管网站上的真实数据不止一个段落,但我得到的结果是一大段。那么如何像网站上那样解析数据呢?


它没有格式化的原因是格式化是在 HTML 中——带有<p> and <ol>标签等 呼叫.text()块元素上的格式会丢失。

Jsoup 有一个例子HTML 到纯文本转换器您可以通过提供 div 元素作为焦点来适应您的需求。

或者,您可以选择"div.col-section > *",并迭代每个元素,并用换行符打印出该文本。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

使用 jsoup 将 HTML 解析为格式化的纯文本 的相关文章

随机推荐