使用 Jsoup 解析 Html 内容

2023-11-29

这是我的 HTML 源代码

             <li>
                 <a href="/info/some1>Item 1<br>
                    <span class="deets">111</span>
                 </a>
             </li>

             <li>
                 <a href="/info/some2>Item 2<br>
                    <span class="deets">222</span>
                 </a>
             </li>

             <li>
                 <a href="/info/some3>Item 3<br>
                    <span class="deets">333</span>
                 </a>
             </li>

这是我的 Java 程序，用于获取内容并过滤 HTML 标签

    try {   
        myurl = new URL("http://www.somewebsite.com");  
        HttpURLConnection con= (HttpURLConnection) myurl.openConnection();

        InputStream result = con.getInputStream();
        BufferedReader reader = new BufferedReader(new InputStreamReader(result));
        StringBuilder sb = new StringBuilder();

        for(String line; (line = reader.readLine()) != null;)
            //append all content & separate using line separator
        sb.append(line).append(System.getProperty("line.separator"));
        String final_result = sb.toString().replaceAll("\\<.*?\\>", "");    

        TextView tv=(TextView) findViewById(R.id.textView1); 
        tv.setText(final_result);


    } 

    catch (Exception e) {
        // TODO Auto-generated catch block
        e.printStackTrace();
        tv.setText("not working");
    }

有没有更简单的方法使用 Jsoup 来使用 Java 而不是 Regex 来解析 HTML 内容

有没有办法只获取所需的内容。所以这里我只想要内容“Item 2 - 222”

         <li>
             <a href="/info/some2>Item 2<br>
                <span class="deets">222</span>
             </a>
         </li>

尝试使用 jsoup 轻松解析：

// To parse the html page
Document doc = Jsoup.connect("http://www.website.com").get();
Document doc1 = Jsoup.parse("<html><head><title>First parse</title></head>" + "<body> <p>Parsed HTML into a doc.</p></body></html>");

String content = doc.body().text();

// To get specific elements such as links
Element links = doc.select("a[href]");
for(Element e: links){
    System.out.println("link: " + e.attr("abs:href"));
}

要了解更多信息，请访问Jsoup 文档

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Java

Android

html

Parsing

Jsoup

使用 Jsoup 解析 Html 内容的相关文章

带有透明边框的响应式箭头进度条

我正在尝试构建一个进度条如结帐中常见的那样问题是箭头之间的边界是透明的整个事情应该是反应灵敏到目前为止我已经明白了 http codepen io MrBamblele pen rVBeoz http codepen io MrB
如何将一个组件放在其他组件之上？

我有一个JScrollPanel其中包括一个大面板其本身包括 3 个内面板我想将一个面板例如放在一个特殊的位置以便始终可以看到我的意思是用户可以滚动到想要的任何地方但该面板始终位于其他组件的顶部并且不会移动我试图通过这样做J
使用 CSS 显示 div 内容后淡出

我正在尝试在单击按钮时显示通知单击按钮实际上会检查电子邮件验证我知道要显示一个包含错误消息内容的 div 但是我想淡出错误消息比如说 5 秒后我想用CSS来实现它以下是我的尝试它只是隐藏了一切 signup response
使用 ADB 更改 Android 壁纸？

我想知道是否可以使用我的笔记本电脑从 ADB 更改 Android 壁纸我不知道是否存在任何命令或者我是否需要将图片复制到文件夹或编辑文本文件如果可以的话我需要通过 ADB 解决这个问题谢谢大家您只需要启动正确的壁纸设置意图由
Android 应用程序中最用户友好的布局选项

所以我面临的问题不是主观判断什么对用户最好我认为而是有哪些选项可以用来说明定位 Think of some sort of team sports app where you can put little dots for player
将私有 Java 9 模块包公开给 JUnit 的正确方法是什么？

我有一个可执行 Java 9 模块意味着它不会公开任何包它只包含一个main函数我需要测试我正在使用 Gradle 的java library and org gradle java experimental jigsaw插件我
如何将 csv/文本文件从 Android 手机发送到 WiFi 打印机？

我正在开发一个 Android 应用程序我应该从数据库中获取 csv txt 文件格式的数据然后我必须将文件发送到 wifi 打印机有谁知道我如何开始这样做答案终于很简单 Socket client new Socket IP PO
如何使用 Android 的身份验证标签进行 GCM 加密

我想制作一个通过 GCM 模式与 Android 身份验证标签加密数据的函数这是我的源代码 public static byte GCMEncrypt String hexKey String hexIV byte aad throws
Android 堆栈跟踪显示生产 Firebase crashlytics 中的测试代码

该应用程序的 Play 商店版本的 Firebase crashlytics 中报告了该异常当用户进入启动活动时会发生这种情况任何帮助将不胜感激谢谢没有其他可用的堆栈跟踪有助于跟踪代码发生的位置 Fatal Exception j
如何在同一行实例化对象并调用setter？

如果我有一个Employee具有默认构造函数的类 private String firstName public Employee 和一个二传手 public void setFirstName String firstName this
带有边框半径的CSS中的完美圆不起作用

圆往往是椭圆形的我想要的是完美的圆 border radius 100 不起作用我想知道为什么 http jsfiddle net 8gD2m 1 http jsfiddle net 8gD2m 1 badge display inlin
-webkit-overflow-scrolling：触摸；无效的属性值

我不明白为什么这不起作用我把它放在我的 html 和正文中它仍然显示无效的属性值并被划掉我首先尝试在媒体查询中使用它但它在那里不起作用有谁知道它对我不起作用的潜在原因谢谢你 html body width 100 height
使用 jsch 将远程服务器中的目录移动到同一远程服务器中的另一个位置

我正在使用 JSCH API 通过 sftp 连接到远程服务器我需要将远程服务器中的目录从位置 A 移动到位置 B 看起来像方法channelsftp put src dest 只允许移动文件而不移动目录有人可以解释一下我该怎么做吗您
Spring MVC @RequestBody 不适用于 jquery ajax？

这是我的ajax请求 var dataModel name1 value1 name2 value2 ajax url testURL type POST async false contentType application json d
如何在 Tomcat 6 中合理配置安全策略

我使用的是为 Ubuntu Karmic 打包的 Tomcat 6 0 24 Ubuntu 的 Tomcat 软件包的默认安全策略相当严格但看起来很简单在 var lib tomcat6 conf policy d 有多种建立默认策略的
在 Bootstrap 按钮下拉列表标题/占位符文本中显示所选项目

这个问题已经在 Stackoverflow 上被问过几次了但是我仍然无法弄清楚它的真相而且我的查询正在抛出更多的下拉菜单所以我有两个下拉菜单和一个搜索我想从下拉列表和选定中进行选择以替换下拉占位符文本但我还需要记住点击搜索后
PopupWindow 在 Android API 28 的自定义键盘上被剪切

我做了一个定制键盘当您长按某个键时会出现PopupWindow在按键上方显示一些额外的选项问题在于在 API 28 中此弹出窗口被剪切甚至顶行完全隐藏我已经为 API with https stackoverflow com
如何在 Android 中没有视频视图的情况下从 URL 获取视频长度（以毫秒为单位）？

我正在 Android 中制作一个媒体播放器我需要一个代码来获取视频长度而不使用视频视图我在堆栈溢出中看到了很多页面但每个页面都用于显示如何在视频视图中获取视频的长度但我需要没有视频视图你可以使用媒体元数据检索器 http dev
刷新 ArrayAdapter onResume [notifyDataSetChanged() 不起作用]

我正在使用片段创建一个联系人列表应用程序其中一个片段是联系人列表中的姓名列表另一个是其余详细信息这是显示名称列表的类 public class MyListFragment extends ListFragment private C
当用户从android后台删除应用程序时如何检测事件？

当用户从后台删除我的应用程序时我需要重置通知所以我需要一个从后台删除应用程序的事件请帮帮我建议表示赞赏谢谢亲切的问候官方安卓文档 Activity onDestroy 您的活动被销毁之前收到的最后一个电话发生这种情况的原因可

随机推荐

java的日期格式问题

我从 Joynet 云 API 服务器获取日期格式 2012 11 20T10 26 04 00 00 但是我不知道如何处理最后一段 00 00 我把除了 00 00以外的格式都做了 SimpleDateFormat fmt new Si
我无法写入 EditText，当我尝试写入内容时它会消失，因为当我修改数据时调用 getView()

EDIT 我发现原因是当我尝试时 getView 被调用编辑一些内容以便加载来自 DataAdapter 的数据并进行我的编辑变化消失 EDIT 我观察到一件事如果列表视图中的行数很少那么它的好的但是如果有很多行列表视图无法显
如何将文件写入外部 SD 卡而不是设备存储中？

我试过这个 public String getFilename File file new File Environment getExternalStorageDirectory Test2 if file exists file mkd
阅读器关闭时尝试读取无效

我的应用程序有一个通用数据库类在该类中我有一个函数 public MySqlDataReader getRecord string query MySqlDataReader reader using var connection new
Android recyclerView findViewHolderForAdapterPosition 返回 null

我想以编程方式单击 recyclerView 中的一个项目我发现a way去做 recyclerView findViewHolderForAdapterPosition 0 itemView performClick 但它对我不起作用
删除灰色 UITableView 索引栏

我正在使用 UITableView 制作一个应用程序该应用程序有几个部分 2 当我运行时表视图的侧面有一个令人讨厌的灰色索引栏就像 iPod 应用程序中的索引栏一样只有 2 个选项在里面我的问题是如何隐藏索引栏因为它是不必要
为什么 const 方法可以采用非 const 引用？

我知道 const 方法无法修改调用它的对象看这段代码 class A int a public void f A a const a a 5 int main A x x f x return 0 为什么这段代码可以编译当将方法声明为
使用 preg_replace 将单词的每个第一个字母大写

所以我有一些句子通过一些自动更正过程插入到数据库中下面这句话 sentence Is this dog your s because it can t be mine 下面的代码将每个单词大写但确保它不大写缩写例如 n t str r
如何为长时间运行的作业设置自定义 retry_after |拉拉维尔

问题如何自定义长时间运行的作业而无需在每次 retry after 秒后尝试多次我有一项工作需要 1 到 3 小时才能完成我已经根据 Laravel 文档创建了基于作业的作业这是我的作业文件
将数据集导出到 xml 文件，在 DBunit 中出现错误

大家好我正在使用 dbunit 工作我正在尝试将 db 数据集导出到 xml 文件中 import java sql Connection import java sql DriverManager import org dbunit
0,1 上的双字补码的上下文无关语法是什么？ [关闭]

Closed 这个问题不符合堆栈溢出指南目前不接受答案 L ww w 属于 0 1 的补集的 CFG 是多少首先请注意以下事实任何奇怪的单词都是语言的一部分让我们定义以下语言 L1 w1w w 0 1 L0 w0w w 0 1 这
如何将数据从子级传递给父级？当父级基于类并且子级基于函数时

我想将数组字符串数字等数据从 Child1 Child 组件传递到 App Parent 组件中父母是基于阶级的孩子是基于功能的 Parent import React Component from react import App
如何命名和链接在故事板中创建的 IBAction 按钮

我将按钮命名为提醒显然它应该将自己链接到文件但我的文件中什么也没显示我在故事板中创建了一个按钮但我不知道如何将其链接到 m 或 h 文件我对此真的很陌生并且仍在学习我是否应该更改按钮的设置以及在文件中编写哪些代码才能使其工作
使用 Powershell 替换文件中的多行文本，而不使用 Regex

我有以下 Powershell 脚本 oldCode div div newCode div div div div
安装 Firefox 扩展后打开页面

我正在尝试做类似的事情这个帖子但是我正在使用附加 SDK 但似乎找不到方法来执行此操作在用户安装我的附加组件后我应该将用于打开页面的代码放在哪里另外我想知道是否有一种方法可以在安装后切换附加栏并在安装后在附加小部件顶部显示一个
如何在网格中找到所有可能的唯一路径？

我有一个 3 x 3 网格其中有随机放置的障碍物其中有一个随机起点但没有终点当没有更多的单元格可供占用时将创建端点移动可以向上向下向左或向右如何查看网格内所有可能的唯一路径 Example 一旦在寻找路径时使用了某个单元就
如何从源更新 Tensorflow

我安装了最新的Tensorflow 0 5 0通过 git clone 从源代码中获取并想要更新到Tensorflow 0 6 0 git pull configure bazel build c opt config cuda tens
dev-C++ 中的头文件

我正在尝试向 dev C 添加头文件但是当我编译它时它不起作用这是我的具体步骤对于我的示例我试图让 mysql h 工作将 mysql h 复制到 c dev c includes 检查 dev C 工具 gt 编译器选项 gt
护照的 req.isAuthenticated 总是返回 false，即使我硬编码完成（null，true）

我正在努力让我的护照本地策略发挥作用我已经设置了这个中间件 passport use new LocalStrategy function username password done return done null user if u
使用 Jsoup 解析 Html 内容

这是我的 HTML 源代码 li a href 111 a li li a href 222 a li li li

使用 Jsoup 解析 Html 内容

使用 Jsoup 解析 Html 内容 的相关文章

随机推荐

热门标签

使用 Jsoup 解析 Html 内容的相关文章