jSoup 从类获取文本

2024-04-18

我有一部分 HTML 文件，格式如下：

<h6 class="uiStreamMessage" data-ft="_____"> 
   <span class="messageBody" data-ft="____"> Welcome
   </span>
</h6>

在该文件中，还有其他跨度类。但我只想获取所有“messageBody”范围的文本，该文本将被插入到数据库中。

我试过了：

Elements links = doc.select("span.messageBody");
for (Element link : links) {
     message = link.text();
     // codes to insert into DB
}

and even

Elements links = doc.select("h6.uiStreamMessage span.messageBody");

两者都不起作用。我无法从其他地方找到任何解决方案。请帮忙。

**EDIT

我意识到它是 html 文件中的嵌套跨度：

<h6 class="uiStreamMessage" data-ft=""> 
   <span class="messageBody" data-ft="">Twisted<a href="http://"><span>http://</span>
   <span class="word_break"></span>www.tb.net/</a> Balloons
   </span>
</h6>

只是有时“messageBody”范围内还有另一个范围。如何获取“messageBody”范围内的所有文本？

 String html = "<h6 class='uiStreamMessage' data-ft=''><span class='messageBody' data-ft=''>Twisted<a href='http://'><span>http://</span><span class='word_break'></span>www.tb.net/</a> Balloons</span></h6>";
 Document doc = Jsoup.parse(html);
 Elements elements = doc.select("h6.uiStreamMessage > span.messageBody");
 for (Element e : elements) {
      System.out.println("All text:" + e.text());
      System.out.println("Only messageBody text:" + e.ownText());
}

对于脸书页面https://www.facebook.com/pages/The-Nanyang-Chronicle/141387533074 https://www.facebook.com/pages/The-Nanyang-Chronicle/141387533074:

try {
        Document doc = Jsoup.connect("https://www.facebook.com/pages/The-Nanyang-Chronicle/141387533074").timeout(0).get();

        Elements elements = doc.select("code.hidden_elem");
        for (Element e : elements) {
            String eHtml = e.html().replace("<!--", "").replace("-->", "");
            Document eWIthoutComment = Jsoup.parse(eHtml);
            Elements elem = eWIthoutComment.select("h6.uiStreamMessage >span.messageBody");
            for (Element eb : elem) {
                System.out.println(eb.text());                   
            }
        }
    } catch (IOException ex) {
        System.err.println("Error:" + ex.getMessage());
    }

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Java

Parsing

Jsoup

jSoup 从类获取文本的相关文章

Java Linux 非阻塞套接字超时行为

我有一个 Java 非阻塞服务器它跟踪选择器中的所有套接字通道然后我与服务器建立 500 个连接并定期发送数据服务器接收到的每条数据都会回显给客户端问题来了测试工作了几个小时然后突然逐渐地服务器管理的所有套接字在尝试读取数据时
使用 ActionBar 选项卡进行导航时菜单会折叠

我已经使用支持库中的 ActionBar 来将我的应用程序构建为选项卡式导航栏我的应用程序中有两个选项卡这两个片段都有菜单并且有一个菜单项我想将其显示为操作栏中的一项操作但由于某种原因显示了溢出图标而不是分配给这些项目的图标
使用 preg_split 分割和弦和单词

我正在编写一小段播放处理歌曲标签的代码但我遇到了一个问题我需要解析每首歌曲选项卡行并将其拆分以获取大块chords一方面并且words在另一个每个块就像 line chunk array 0 gt part of line con
Eclipse 插件：应有的自动完成功能

我有一个问题有多种可能的解决方案我正在学习计算机科学目前正在担任实习生我的任务是为 Android 和 iOS 制作一个商业应用程序我现在已经使用 Visual studio 2010 工作了 2 年 Xcode 相当相似所以这
Java-Android 上的 MulticastSocket 问题

我开始使用 MulticastSocket 进行编码尝试制作一个带有客户端和服务器的简单应用程序来发送消息我的服务器代码 import java io IOException import java net DatagramPacket
Electron 应用程序可以与 java 代码集成吗？

由于node js仍然缺乏Java中存在的重要功能因此我想使用Java而不是node js 并使用Web语言 html js css 创建客户端 Electron 是跨平台的 java 也是跨平台的因此似乎有一个能够两全其美的解决方案
根本原因 java.lang.ClassNotFoundException: com.mysql.jdbc.Driver

我有这个小代码用于将我的 jsp 连接到我的 mysql 数据库 String driver com mysql jdbc Driver Class forName driver String url jdbc mysql localhos
使用简单的 UPDATE 查询“不支持 DML 操作”

我收到错误Not supported for DML operations当我使用以下 HQL 时 Query UPDATE WorkstationEntity w SET w lastActivity timestamp WHERE w
Android MediaCodec 在异步模式下比同步模式下慢？

再次我有一个关于 Android 的 MediaCodec 类的问题我已成功解码原始 h264 内容并将结果显示在两个纹理视图中 h264 流来自运行 openGL 场景的服务器该场景有一个摄像头因此可以响应用户输入为了进一步减少
在处理器生成的类中使用库

我正在开发一个库来使用注释和处理器生成类生成的类应该使用Gson来自谷歌的图书馆我的问题是我应该在哪里添加 Gson 依赖项我目前正在将其添加到处理器 build gradle 中但是当生成类时找不到 Gson Android
Java + JNA：找不到指定的过程

我正在尝试使用 Visual Studio 创建一个 dll 文件并在 java 项目中使用访问它该库似乎已加载但总是抛出相同的异常线程 main 中出现异常 java lang UnsatisfiedLinkError 查找函数
将resourceBundle与外部文件java一起使用

我一直在阅读有关此问题的其他问题和答案但我不明白资源边界是如何完全工作的我认为这与 Joomla 使用多语言选项的方式类似基本上您有要阅读的不同语言的不同消息的文件所以我在 src Lang 文件夹中创建了 System prop
Hibernate + Oracle IN 子句限制，如何解决？

我知道这个问题已经发了很多次了但我想问一下细节使用 Oracle 您不能向 IN 子句传递超过 1000 个参数因此将 hibernate 与 Oracle 一起使用可能有一些解决此问题的方案例如 1 对于每个 1000 个参数列表
如何从github项目获取jar？ [复制]

这个问题在这里已经有答案了我想使用官方网站上的 kSoap2 android 库http simpligility github io ksoap2 android index html http simpligility github
java.lang.NoSuchFieldError：APPLICATION_CONTEXT_ID_PREFIX

我在运行项目时收到此错误最终结果为 404 该项目是在Spring框架上进行的我读了很多帖子发现要么是混合了罐子要么是多余的罐子接下来我尝试整理我的罐子以下列表是我的构建路径中的内容 antlr 2 7 6 jar asm ja
Keycloak - 自定义表单操作在流程中不可见

我正在尝试为用户注册实现自定义表单操作我在表单上添加了一些自定义字段我希望验证这些字段在浏览了 keycloak 文档后我意识到我需要扩展 FormAction FormActionFactory 将actionfactory打包
如何动态更新属性文件？

我的应用程序是一个批处理过程它从 application properties 文件中提取环境变量我使用的密码必须每隔几个月更新一次我想自动化密码更新过程并将更新后的密码保存在属性文件中以便在将来的运行中使用但我尝试进行的任何更新
Swing JTable：当行可见或滚动到底部时发生事件？

我正在寻找一种方法以便在 JTable 滚动时收到通知以便特定行变得可见或者在表底部滚动到视图中时失败理想情况下这应该在不轮询的情况下完成而是通过一些事件触发来完成有任何想法吗 Add a ChangeListener到滚动窗
如何创建序列密钥来保护应用程序

我有一个创建序列密钥的应用程序如下所示 Take customername Sign customername using privatekey and sha dsa algorithm 然后可以通过使用公钥解码并检查客户名称匹配来检查
总小时数无法从 Android 插入 MySQL

我使用以下公式获得总小时数 public void updateTotalHours int a SplitTime objMyCustomBaseAdapter getFistTime int b SplitTime objMyCusto

随机推荐

使用 ASP.NET 4.5 应用程序中需要 WS-Security 的 Web 服务

我需要使用一个 Web 服务该服务需要基于 ASP NET 4 5 应用程序的 X 509 证书的 WS Security 到目前为止我已经创建了 Web 参考但我不知道如何实现 WS Security 我获得证书没有问题但我不知道
svn 可以提供哪些报告？

我们正在迁移到 SVN 对我们来说不幸的是我们会定期接受审核审核员需要以下信息文件更改历史记录SVN访问历史添加了新文件文件的变化是否有一个工具可以为我们生成这些报告或其中一些报告 StatSVN是一个轻量级的颠覆报告生成器 ht
如何使用jquery获取动态创建的没有Id的子元素的高度

我有一个 div 它总是动态加载两个图像并且可能在中间加载一个 div 图像或 div 都没有与之关联的 id 而且我不能让它们有 id 用萤火虫检查它们它们只是显示为 img and div 我需要获取这个子 div 存在时的高度我
打印用户输入的两个最高值

我有一个作业我必须编写一段代码让用户决定要写入的 int 值的数量然后决定这些值应该是什么用户必须至少有 2 个输入然后程序将比较输入的值然后打印出两个最高值到目前为止我设法打印出最高的值但我不确定我的做法有什么问题因为
Chrome 更新破坏了我的滚动子菜单

在 Windows 和 Osx 中将 Chrome 更新到版本 56 它破坏了我的滚动子菜单如果我用鼠标滚轮滚动滚动操作就会起作用但是如果我将鼠标指针悬停在滚动条上子菜单就会关闭我使用以下 css 来滚动子菜单 ul scroll
如何将所有text_node节点值的一部分包装在html元素中？

我正在迭代 html 文档中的所有文本节点以便用特定的范围包围一些单词改变nodeValue不允许我插入 html 这span被转义以纯文本显示我不希望这样这是我到目前为止所拥有的 var elements document get
我无法在react-dom/client中使用createRoot函数

import React from react import as ReactDOMClient from react dom client import App from App import reportWebVitals from r
提取授权号的正则表达式模式

我在用着GSKinner 的 Reg Exr 工具 http gskinner com RegExr 帮助提出一种模式可以在包含大量其他垃圾的字段中找到授权号授权号是一个包含字母有时数字始终和连字符有时的字符串 i e 授权
访客模式的实际优势是什么？有哪些替代方案？

我读了很多关于访客模式及其假定优势的内容然而对我来说在实践中应用它们似乎并没有那么大的优势方便和优雅似乎意味着大量的样板代码因此代码很难遵循另外接受访问的描述性并不强如果您的编程语言没有方法重载即 Vala 那么
在sql server中如何获取用`
`分开的列值

在sql server中如何获取列的值 br 分开他们这里我用逗号分隔但是我怎样才能得到 br 在sql服务器中的html中 SELECT STUFF SELECT cast Citation Id as nvarchar 500 FR
我的简单 ListView 应用程序正在泄漏内存。我做错了什么？

首先我确实先将其发布到 android google 群组但它经过了审核我不确定它需要多长时间才能出现在那里所以希望这里有人可以提供帮助我创建了一个简单的应用程序其中 ListView 遵循 ListActivity 我在网上找
有没有办法重新打开套接字？

我在一些代码中创建了许多短期套接字如下所示 nb 1000 for i in range nb sck socket socket socket AF INET socket SOCK STREAM sck connect adr p
如何让VS忽略Test dll的代码覆盖率

目前当我运行代码覆盖率分析时报告的覆盖率为 90 问题是另外 10 是实际测试的代码我怎样才能让VS忽略该测试代码而只考虑实际代码您可以在项目中添加运行设置文件在该文件中您可以提及需要从代码覆盖率中排除的 DLL 名称
多个水豚等待时间？

我想要有不一样的Capybara我的代码中的等待时间取决于它们通常需要多长时间才能完全加载我是否必须重复不断地改变Capybara default wait time或者还有更好的方法您可以使用使用等待时间秒 http rubydo
将recvfrom() 与原始套接字一起使用：一般疑问

我创建了一个原始套接字它从数据链路层获取所有 IPv4 数据包删除了数据链路层标头为了读取我使用的数据包recvfrom 我的疑问是假设由于操作系统进行了一些调度我的进程休眠了 1 秒当它醒来时它做到了recvfrom 要接收
使用 SSLSocket 的 SOCKS5 代理

我有一个客户端服务器应用程序它通过 Java 的 SSLSocket 远程连接到服务器我正在尝试实现一种可选模式通过经过身份验证的 SOCKS v5 代理启用连接我尝试使用相关教程 http download oracle com
设置目录和子项的权限

我的程序将一些目录子目录和文件从服务器复制到本地计算机我需要每个本地用户都可以修改它编辑删除删除重命名但现在它只能做所有者如何为复制的目录及其子项目设置必要的权限我尝试这样的代码 String account Path
关闭 UIScrollView 中的键盘

好吧我有几个UITextFields and UITextViews里面一个UIScrollView 我想将键盘设置为消失scrollview被触摸或滚动当然当您触摸文本字段视图内时除外我目前的尝试是替换UIScrollView与
如何使用 PDO 从 MySQL 获取数字类型？

我正在使用 PDO 和 MySQL 由于某种原因当从数据库获取 int 类型的值时 PDOStatement 返回数字的字符串表示形式而不是数字类型的值我该如何防止这种情况发生我注意到 PDO 类有一个属性 PDO ATTR STR
jSoup 从类获取文本

我有一部分 HTML 文件格式如下 h6 class uiStreamMessage span class messageBody Welcome span h6 在该文件中还有其他跨度类但我只想获取所有 messageBody 范围

jSoup 从 类获取文本

jSoup 从 类获取文本 的相关文章

随机推荐

热门标签

jSoup 从类获取文本

jSoup 从类获取文本的相关文章