使用 JSoup 解析 Html

2024-03-10

我正在尝试解析以下 URL 的 html：

http://ocw.mit.edu/courses/aeronautics-and-astronautics/16-050- Thermal-energy-fall-2002/ http://ocw.mit.edu/courses/aeronautics-and-astronautics/16-050-thermal-energy-fall-2002/

获取包含讲师姓名的“”标签的文本。所需的信息位于“”标签内，但我无法使用 JSoup 检索标签。我不知道我做错了什么，因为当我将标签保存在 Element 对象中时，我们将其称为“b”，并且我调用 b.getAllElements() 它不会显示

作为要素之一。这不是 Jsoup 的 getAllElements() 方法所做的吗？如果没有，请有人向我解释一下我显然缺少的层次结构，因为解析器无法找到

标签包含我需要的文本，在本例中是“Zoltan Spakovszky 教授”。

任何帮助将不胜感激。

public void getHomePageLinks()
{
    String html = "http://ocw.mit.edu/courses/aeronautics-and-astronautics/16-050-thermal-energy-fall-2002/";
    org.jsoup.nodes.Document doc = Jsoup.parse(html);

    Elements bodies = doc.select("body");

    for(Element body : bodies )
    {
        System.out.println(body.getAllElements());
    }

}

输出是：

http://ocw.mit.edu/courses/aeronautics-and-astronautics/16-050- Thermal-energy-fall-2002/ http://ocw.mit.edu/courses/aeronautics-and-astronautics/16-050-thermal-energy-fall-2002/

它不是应该打印出文档中 body 标记内的所有元素吗？

我对 JSoup 一无所知，但似乎如果您想要讲师的名字，您可以通过以下方式访问它：

Element instructor = doc.select("div.chpstaff div p");

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

使用 JSoup 解析 Html 的相关文章

在 HTTP 标头中发送 UTF-8 值会导致 Mojibake

我想使用 servlet 发送阿拉伯语数据HTTPServletResponse给客户我正在尝试这个 response setCharacterEncoding UTF 8 response setHeader Info arabicWo
Modernizr - 加载 polyfills / 使用自定义检测的正确方法

我想在网页上使用一些新的 HTML5 表单属性和输入类型有些浏览器已经支持它们有些浏览器不支持也永远不会支持这就是我想使用 Modernizr 的原因这就是我的麻烦开始的原因据我了解 Modernizr 本身并不是一个 poly
jquery 验证错误位置

这看起来很简单但我无法弄清楚我正在使用 jquery 验证插件我验证所有文件但我想要的是在输入文本行中显示验证消息警报例如在电子邮件输入中请填写电子邮件地址但现在它出现在所有字段下在我的html中
具有共享依赖项的多模块项目的 Gradle 配置

使用 gradle 制作第一个项目所以我研究了 spring gradle hibernate 项目如何组织 gradle 文件并开始制作自己的项目但是找不到错误为什么我的配置不起作用子项目无法解决依赖关系所以项目树 Root
Java 8 中函数式接口的使用

这是来自的后续问题Java 8 中的双冒号运算符 https stackoverflow com questions 20001427 double colon operator in java 8其中 Java 允许您使用以下方式引用
列表应该如何转换为具体的实现？

假设我正在使用一个我不知道源代码的库它有一个返回列表的方法如下所示 public List
Jquery 中的动态滚动位置

请帮助我解决以下情况我有 3 个页面当滚动到达第二页时用户滚动页面它必须找到特定的 ID 然后触发一个函数一旦第三页开始另一个函数就会触发根据要求我不应该使用任何插件
Google Chrome 106 可拖动导致元素消失

使用拖放元素时绝对定位元素中包含的大多数其他元素都会从屏幕上消失如果我调整窗口大小这些元素会出现但在开始拖动时会再次消失我在最新版本的 Google Chrome 106 和 Beta 版本 107 0 5304 18 以及现在的
如何记录来自 Akka (Java) 的所有传入消息

在 Scala 中您可以使用 LoggingReceive 包装接收函数如何通过 Java API 实现相同的目标 def receive LoggingReceive case x do something Scala API 有Lo
Spring Security OAuth2简单配置

我有一个简单的项目需要以下简单的配置我有一个密码 grant type 这意味着我可以提交用户名密码用户在登录表单中输入并在成功时获得 access token 有了该 access token 我就可以请求 API 并获取用户
如何配置 WebService 返回 ArrayList 而不是 Array？

我有一个在 jax ws 上实现的 java Web 服务此 Web 服务返回用户的通用列表它运行得很好 Stateless name AdminToolSessionEJB RemoteBinding jndiBinding Admi
Dispatcher-servlet 无法映射到 websocket 请求

我正在开发一个以Spring为主要框架的Java web应用程序特别使用Spring core Spring mvc Spring security Spring data Spring websocket 像这样在 Spring 上下文
逃离的正确方法是什么？使用 Oracle 12c MATCH_RECOGNIZE 时 JDBCPreparedStatement 中的字符？

以下查询在 Oracle 12c 中是正确的 SELECT FROM dual MATCH RECOGNIZE MEASURES a dummy AS dummy PATTERN a DEFINE a AS 1 1 但它不能通过 JDBC
将图像添加到自定义 AlertDialog

我制作了一个 AlertDialog 让用户可以从我显示的 4 个选项中选择一个前 3 个让他们在单击号码时直接拨打号码第 4 个显示不同的视图现在看起来是这样的由于第四个选项的目的是不同的任务我想让它看起来不同因为用户可能会感
JVM：是否可以操作帧堆栈？

假设我需要执行N同一线程中的任务这些任务有时可能需要来自外部存储的一些值我事先不知道哪个任务可能需要这样的值以及何时获取速度要快得多M价值观是一次性的而不是相同的M值在M查询外部存储注意我不能指望任务本身进行合作它们只不过是 ja
Java：拆箱整数时出现空指针异常？

此代码导致空指针异常我不知道为什么 private void setSiblings PhylogenyTree node Color color throws InvalidCellNumberException PhylogenyTr
为什么“tbody”不设置表格的背景颜色？

我在用 tbody 作为 CSS 选择器来设置background color在一个表中我这样做是因为我有多个 tbody 表内的部分它们具有不同的背景颜色我的问题是当使用border radius在细胞上细胞不尊重backgro
Hibernate 和可序列化实体

有谁知道是否有一个框架能够从实体类中剥离 Hibernate 集合以使它们可序列化我查看了 BeanLib 但它似乎只进行实体的深层复制而不允许我为实体类中的集合类型指定实现映射 BeanLib 目前不适用于 Hibernate 3 5
Java &= 运算符应用 & 或 && 吗？

Assuming boolean a false 我想知道是否这样做 a b 相当于 a a b logical AND a is false hence b is not evaluated 或者另一方面这意味着 a a b Bitwi
启动Java项目时发生类冲突：ClassMetadataReadingVisitor将接口org.springframework.asm.ClassVisitor作为超类

我正在使用最新的Spring框架版本 3 2 2 RELEASE 开发一个Java Web项目但是现在项目启动时遇到了问题详细错误是 java lang IncompleteClassChangeError 类 org springfr

随机推荐

为什么 /Qvec-report:2 什么也不返回？（MSVC 2012）

我尝试了 Qvec report 2 选项来查看 MSVC 自动矢量化器是否有任何用处不幸的是我没有得到任何结果无论是积极的还是消极的 gt Microsoft R C C Optimizing Compiler Version 17
后台任务 iOS 13 Swift

我想在后台运行该函数但我收到错误我收到的错误是 nw connection receive internal block invoke 为什么我会遇到这个问题我正在尝试iOS 13设备但我无法在后台运行该应用程序我添加了后台运行功
带括号 &(A::m) 的非静态成员函数地址不起作用？

这可能是一个初学者语法问题但我在 SO 中找不到 include
如何在 ng bootstrap Datepicker 中从星期日而不是星期一开始日历周？

我想将 ngbDatepicker 设置为从星期日开始一周而不是默认的星期一我正在尝试使用周开始时间 0 但没有效果这是我的html代码
Android 导航栏覆盖我的视图

我在 Nexus 等设备上遇到 Android 导航栏问题简单地说在所有没有硬件菜单按钮的设备上让我更详细地解释一下这个问题我有一个应用程序有 3 个部分内容 ActionBar 和带有 SeekBar 的底部面板 Action
选择/拖动文本时停止页面滚动

我有一个页面我不希望用户能够滚动为了防止这种情况我只是将主体设置为隐藏溢出样式直到用户尝试选择一些文本然后拖动到底部为止这已经足够了然后窗口会随着用户的拖动而滚动我怎样才能防止这种情况发生 use position fixed
TabView 在切换选项卡时重置导航堆栈

我有一个简单的 TabView TabView NavigationView VStack NavigationLink destination Text Detail Text Go to detail tabItem Text Firs
从 RGBA 像素字节数据重建 UIImage 时出现问题

我需要从单个灰度图像红色橙色黄色等创建 12 个彩色图像源图像实际上是PNG RGBA 我正在使用我找到的一个库 https github com PaulSolt UIImage Conversion https github
硒元素位置

有没有一种简单的方法可以从另一个元素中查找子元素这两个项目都已使用 PageFactory 定位我们有一组包含许多模块的容器我想确保它们显示在正确的位置该API似乎只有以下方法 webElement findElement s By
Powershell 删除项目无法从函数中运行

我需要将别名 cd 替换为名为 cd 的函数我尝试从函数中删除别名但没有成功以下是一个简单的测试脚本 function remove alias get command cd Remove Item Path Alias cd get
如何在 SVN Tortoise Commit 上不显示对话框？

我有一个修改一些文件的过程我想通过命令行 tortoise SVN 提交它们而不必单击确定出现对话框我的脚本被迫等待直到我单击确定以下是我正在使用的论点 TortoiseProc exe command commit pat
ES6 的 webcomponents-lite 在 IE 11 和 10 中不起作用

我们使用带有 ES6 语法的 WebComponents Web组件 http webcomponents org 填充材料webcomponents lite js 不包括 ShadowDOM 无法在 IE 11 中运行而 webcomp
调整 UILabel 的大小以适合自定义 UITableViewCell 内的文本，无论宽度如何

我试图让单元格中的标签具有正确的尺寸无论设备或方向如何我能够正确调整行高的大小我还可以正确设置标签高度cellForRowAtIndexPath 并可以在我的日志中查看但是当它到达willDisplayRowAtIndexPath
为什么在Python中关闭Sqlite3的游标

使用Python时关闭游标有什么好处sqlite3模块 https docs python org 2 7 library sqlite3 html module sqlite3 或者它只是一个人工制品数据库API v2 0 https w
matplotlib 轴标签格式

我对轴刻度标签的格式有疑问我禁用了 y 轴的偏移 ax1 ticklabel format style sci useOffset False 并试图将其采用科学格式但我得到的只是 0 00355872 但我期望的是这样的 3 5587
在 EmberJS 中构建自动刷新的嵌套列表

我如何在 EmberJS 中动态生成和更新嵌套列表我的模型看起来像 App Node Em Object extend id 0 parentId 0 title The parentId代表id直接父元素的如果我有数据控制器内容中的
如何在使用“.NETFramework,Version=v4.5.2”的项目中安装 System.Drawing.Common？

我试图在 NETFramework Version v4 5 2 应用程序中用 C 编写一些单元测试但所有测试都会给出下一个错误 System IO FileNotFoundException 无法加载文件或程序集 System Draw
SDL2 - 垂直同步不起作用

我在程序中使用垂直同步在我最小化窗口之前它工作正常我在创建渲染器时这样做了 renderer SDL CreateRenderer window 1 SDL RENDERER ACCELERATED SDL RENDERER PRESE
为什么 getoldtweets3 库提供 404 错误？

我正在使用 getoldtweets3 库来抓取电晕爆发信息我收到这个错误 error C Users Vilius anaconda3 python exe C Users Vilius PycharmProjects Sentimen
使用 JSoup 解析 Html

我正在尝试解析以下 URL 的 html http ocw mit edu courses aeronautics and astronautics 16 050 Thermal energy fall 2002 http ocw mit

使用 JSoup 解析 Html

使用 JSoup 解析 Html 的相关文章

随机推荐

热门标签