使用 jsoup 将 HTML 解析为格式化的纯文本

2023-11-30

我正在开发一个 Maven 项目，该项目允许我解析网站中的 html 数据。我能够使用下面的代码解析它：

public void parseData(){
        String url = "http://stackoverflow.com/help/on-topic";
        try {
            Document doc = Jsoup.connect(url).get();
            Element essay = doc.select("div.col-section").first();
            String essayText = essay.text();
            jTextAreaAdem.setText(essayText);


        } catch (IOException ex) {
            Logger.getLogger(formAdem.class.getName()).log(Level.SEVERE, null, ex);
        }
    }

到目前为止我没有任何问题。我可以解析html数据。我使用 jsoup 中的 select 方法并使用“div.col-section”检索数据，这意味着我正在寻找类为 col-section 的 div 元素。我想在文本区域中打印数据。尽管网站上的真实数据不止一个段落，但我得到的结果是一大段。那么如何像网站上那样解析数据呢？

它没有格式化的原因是格式化是在 HTML 中——带有<p> and <ol>标签等呼叫.text()块元素上的格式会丢失。

Jsoup 有一个例子HTML 到纯文本转换器您可以通过提供 div 元素作为焦点来适应您的需求。

或者，您可以选择"div.col-section > *"，并迭代每个元素，并用换行符打印出该文本。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Java

Maven

Jsoup

使用 jsoup 将 HTML 解析为格式化的纯文本的相关文章

如何使用 FileChannel 将一个文件的内容附加到另一个文件的末尾？

File a txt好像 ABC File d txt好像 DEF 我正在尝试将 DEF 附加到 ABC 所以a txt好像 ABC DEF 我尝试过的方法总是完全覆盖第一个条目所以我总是最终得到 DEF 这是我尝试过的两种方法 File
如何在一行中将字符串数组转换为双精度数组

我有一个字符串数组 String guaranteedOutput Arrays copyOf values values length String class 所有字符串值都是数字数据应转换为Double QuestionJava 中
线程自动利用多个CPU核心？

假设我的应用程序运行 2 个线程例如渲染线程和游戏更新线程如果它在具有多核 CPU 当今典型的移动设备上运行我是否可以期望线程在可能的情况下自动分配给不同的核心我知道底层操作系统内核 Android linux内核决定调度我的
如何查找 Android 设备中的所有文件并将它们放入列表中？

我正在寻求帮助来列出 Android 外部存储设备中的所有文件我想查找所有文件夹包括主文件夹的子文件夹有办法吗我已经做了一个基本的工作但我仍然没有得到想要的结果这不起作用这是我的代码 File files array file
CXF Swagger2功能添加安全定义

我想使用 org apache cxf jaxrs swagger Swagger2Feature 将安全定义添加到我的其余服务中但是我看不到任何相关方法或任何有关如何执行此操作的资源下面是我想使用 swagger2feature 生成
使用 ANTLR 为 java 源代码生成抽象语法树

如何使用 ANTLR 从 java src 代码生成 AST 有什么帮助吗好的步骤如下前往ANTLR站点 http www antlr org 并下载最新版本下载Java g和JavaTreeParser g文件来自here htt
当分配给变量时，我可以以某种方式重用 Gremlin GraphTraversals 代码吗？

我有看起来像这样的 GraphTraversals attrGroup GraphTraversal
一种使用 Java Robot API 和 Selenium WebDriver by Java 进行文件上传的解决方案

我看到很多人在使用 Selenium WebDriver 的测试环境中上传文件时遇到问题我使用 selenium WebDriver 和 java 也遇到了同样的问题我终于找到了解决方案所以我将其发布在这里希望对其他人有所帮助当我需
Java 页面爬行和解析之 Crawler4j 与 Jsoup

我想获取页面的内容并提取其中的特定部分据我所知此类任务至少有两种解决方案爬虫4j https github com yasserg crawler4j and Jsoup http jsoup org 它们都能够检索页面的内容并提取其
如何在jsp代码中导入java库？

我有以下jsp代码我想添加 java io 等库我怎样才能做到这一点
无法理解 Java 地图条目集

我正在看一个 java 刽子手游戏 https github com leleah EvilHangman blob master EvilHangman java https github com leleah EvilHangman b
Clip 在 Java 中播放 WAV 文件时出现严重延迟

我编写了一段代码来读取 WAV 文件大小约为 80 mb 并播放该文件问题是声音播放效果很差极度滞后你能告诉我有什么问题吗这是我的代码我称之为doPlayJframe 构造函数内的函数 private void doPlay f
检查 Android 手机上的方向

如何查看Android手机是横屏还是竖屏当前配置用于确定要检索的资源可从资源中获取Configuration object getResources getConfiguration orientation 您可以通过查看其值来检查方向
检查 protobuf 消息 - 如何按名称获取字段值？

我似乎无法找到一种方法来验证 protobuf 消息中字段的值而无需显式调用其 getter 我看到周围的例子使用Descriptors FieldDescriptor实例到达消息映射内部但它们要么基于迭代器要么由字段号驱动一旦我有
org.jdesktop.application 包不存在

几天以来我一直在构建一个 Java 桌面应用程序一切都很顺利但是今天当我打开Netbeans并编译文件时出现以下编译错误 Compiling 9 source files to C Documents and Settings Ad
Android JNI C 简单追加函数

我想制作一个简单的函数返回两个字符串的值基本上 java public native String getAppendedString String name c jstring Java com example hellojni He
如何测试 spring-security-oauth2 资源服务器安全性？

随着 Spring Security 4 的发布改进了对测试的支持 http docs spring io spring security site docs 4 0 x reference htmlsingle test我想更新我当前的
将 JTextArea 内容写入文件

我在 Java Swing 中有一个 JTextArea 和一个提交按钮需要将textarea的内容写入一个带有换行符的文件中我得到的输出是这样的它被写为文件中的一个字符串 try BufferedWriter fileOut n
将2-3-4树转换为红黑树

我正在尝试将 2 3 4 树转换为 java 中的红黑树但我无法弄清楚它我将这两个基本类编写如下以使问题简单明了但不知道从这里到哪里去 public class TwoThreeFour
java迭代器内部是如何工作的？ [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我有一个员工列表 List

随机推荐

如何将dict数据写入表格格式

如何以下表输出格式写入以下数据字典列表 data date datetime date 2011 2 8 user u xxx status u P date datetime date 2011 2 8 user u yyy statu
从日期计算一年中的第几天

我需要计算给定日期的天数一年有 366 天然而每个月都有不同的值我必须分配这些值有没有比我现在的方法更快的方法 include
如何让 Java 测试容器在 Docker 多阶段构建中工作？

我有一个类似的问题使用 Maven 在 gitlab 中运行 Docker 测试容器区别在于我的脚本不是直接运行 mvn 而是运行 docker 多阶段构建在 docker 映像内部运行测试不幸的是这似乎不适用于 PostgreS
使用 LINQ 连接字符串

写老派最有效的方法是什么 StringBuilder sb new StringBuilder if strings Count gt 0 foreach string s in strings sb Append s sb Remove
尝试从字符串路径解析 Uri 时为 Null

我正在用这个FileUtils类来处理Uri public class FileUtils private FileUtils private static final String TAG FileUtils private static
不使用 jQuery 或 Ajax 的链式选择

我正在使用 XAMPP Lite USB 版本发现 jQuery 链接选择框脚本不起作用因为它们依赖于 AJAX 而 AJAX 不适用于我的 XAMPP 我有两个选择框
如何提高 Bootstrap 斑马条纹表的对比度

我有以下带有斑马条纹的 twitter bootstrap 表 table class table table striped thead tr th Advantage th th Details th tr thead tbody tr
当您从 C# P/Invoke 时，异步过程调用如何处理编组委托？

我想知道当您在下面的特定情况下通过 P Invoke 将回调委托编组到 DLL 时是否可能成为本机世界中托管线程管理问题的受害者请参阅示例代码这篇关于 Windows 中托管和非托管线程的 MSDN 文章 states 操作系统 Th
减少字典列表的优雅方法？

我有一个字典列表每个字典都包含完全相同的键我想找到每个键的平均值并且我想知道如何使用reduce 或者如果不可能的话使用另一种比使用嵌套更优雅的方式 fors 这是列表 accuracy 0 78 f measure 0 81693
C# 中什么是好的线程安全单例通用模板模式

我有以下 C 单例模式有什么方法可以改进它吗 public class Singleton
从管道读取的 while read 循环后重置变量

initiate read p Location s to look for bsp files in loc find loc name bsp while read do if f loc bz2 then continue else
使用 C# 在 MySQL 中更新语句

我一直在为我的工作场所构建一个小型库存系统并偶然发现了一个我似乎无法修复的错误 private void Update string num string name string quant string location string
静态常量字符串不会被初始化

我有一些静态常量字符串作为我的 C 类的私有成员我知道 h 中的声明和 cpp 实践中的定义和初始化在类构造函数中我调用一个使用这些静态字符串的函数令人惊讶的是在构造函数中字符串保持未初始化空字符串这会产生问题有人可以指
关闭可运行的 JOptionPane

我有这个可运行窗口 EventQueue invokeLater new Runnable Override public void run op new JOptionPane Breaktime JOptionPane WARNING
将日期字符串从破折号转换为正斜杠

我正在尝试使用以下函数将虚线日期 2013 12 11 转换为 2013 12 11 function convertDate stringdate Internet Explorer does not like dashes in dat
Angular 范围函数执行了两次，而它只应该运行一次？

演示在这里简单问题在下面的代码中我只调用该函数isSpecificPage 一次为什么console log两次 div p Hello p div Angular 监视你的ng hide函数以便每个摘要循环它都可以查看结果是否发生
跳过带有超时的输入函数

我正在制作任何程序Python 3 7 我想跳过input特定时间后起作用我的代码具有类似于以下粗略代码的结构 def functionA skip def functionB skip TIMEOUT 0 5 while True TX
网络调用时 android.net.ConnectivityManager$TooManyRequestsException

override fun setR2SettingData cmd String status String val requestbuilder NetworkRequest Builder requestbuilder addTrans
SQL Server：从一个表插入到另一个表

我面临着将数据从一个表插入到另一个表的问题该表具有相同的表结构但列位置不同 Example Table 1 emp1 Name char 50 Age int Salary Float Table 2 emp2 Name char 50
使用 jsoup 将 HTML 解析为格式化的纯文本

我正在开发一个 Maven 项目该项目允许我解析网站中的 html 数据我能够使用下面的代码解析它 public void parseData String url http stackoverflow com help on topi

使用 jsoup 将 HTML 解析为格式化的纯文本

使用 jsoup 将 HTML 解析为格式化的纯文本 的相关文章

随机推荐

热门标签

使用 jsoup 将 HTML 解析为格式化的纯文本的相关文章