Jsoup.parse() 与 Jsoup.parse() - 或者 Jsoup 中的 URL 检测如何工作？

2023-11-25

Jsoup 有 2htmlparse() 方法：

解析（字符串 html）- “由于没有指定基本 URI，因此是绝对 URL 检测依赖于包含标签的 HTML。”
解析（字符串 html，字符串 baseUri）- “HTML 所在的 URL 被检索自。用于将相对 URL 解析为绝对 URL，发生在 HTML 声明标签之前。”

我很难理解meaning两者之间的区别：

在第2次parse()版本，“将相对 URL 解析为绝对 URL”是什么意思？beforeHTML 声明了一个<base href>标签”是什么意思？如果<base href> tag never出现在页面中？
绝对URL检测的目的是什么？为什么Jsoup需要找到绝对URL？
最后但也是最重要的一点是：baseUriHTML 页面的完整 URL （如原始文档中所述）还是base网址为 HTML 页面？

它用于除其他外Element#absUrl()这样您就可以检索某个文件的（预期的）绝对 URL<a href>, <img src>, <link href>, <script src>等。

for (Element link : document.select("a")) {
    System.out.println(link.absUrl("href"));
}

如果您还想下载和/或解析链接的资源，这非常有用。

在第二个 parse() 版本中，“将相对 URL 解析为绝对 URL，发生在 HTML 声明之前”是什么意思？<base href>标签”是什么意思？如果<base href>标签从未出现在页面中？

一些（差的）网站可能已经声明了<link> or <script>带有相对 URLbefore the <base>标签。或者如果没有办法<base>标签，然后就是给定的baseUri将用于解析整个文档的相对 URL。

绝对URL检测的目的是什么？为什么Jsoup需要查找绝对URL？

为了返回正确的 URLElement#absUrl()。这纯粹是为了最终用户的方便。 Jsoup 不需要它来成功地自行解析 HTML。

最后但最重要的是：baseUri 是 HTML 页面的完整 URL（如原始文档中的措辞）还是 HTML 页面的基本 URL？

前者。如果是后者，那么文档就会撒谎。这baseUri一定不要与<base href>.

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Java

htmlparsing

Jsoup

Jsoup.parse() 与 Jsoup.parse() - 或者 Jsoup 中的 URL 检测如何工作？的相关文章

Java复式表

有谁知道可以下载的 Java 中的复式表实现吗我需要做这样的事情 1 2 3 a x y z b h l m c o a k table get a 1 会回来x 当然它应该使用任何对象作为键值等有两种基本方法具体取决于您的需求
有没有什么工具可以验证@XmlPath注释？ [关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案是否有任何工具可以在 Eclipse 或 IntelliJIdea java 框架或其他框架编译时验证
Android 相机：线程？哪个应该做什么

我试图弄清楚哪些线程应该在 Android 中执行哪些操作我发现官方文档中唯一说明的是camera open 应该放入它自己的线程中关于什么 camera startPreview camera stopPreview camera r
JMenuItem：如何设置具有3个键的加速器？

请看下面的代码 import java awt import java awt event import javax swing public class MenuActions extends JFrame private JMenuBa
转置矩阵存储在一维数组中，无需使用额外的内存[重复]

这个问题在这里已经有答案了可能的重复矩阵的就地转置 https stackoverflow com questions 9227747 in place transposition of a matrix 最近参加了技术笔试通过以下问
以编程方式滚动 NatTable

关于 stackoverflow 的第一个问题类似的问题here https stackoverflow com questions 3531081 scrolling swt table programmatically 只有我想滚动N
Java 中的双精度小数格式

我在格式化双精度数的小数时遇到一些问题如果我有双重值例如4 0 如何格式化小数使其变为 4 00 其中一种方法是使用数字格式 http docs oracle com javase tutorial i18n format decim
克隆在幕后是如何工作的？

克隆不会调用对象构造函数来创建对象的副本那么clone使用什么算法呢我正在寻找本机方法克隆的实现细节任何指示将不胜感激请注意我知道克隆的缺点 protected native Object clone 我不太清楚我需要查看本机代
使用 Java Google App Engine 批量加载程序将整个数据存储区下载到一个 csv 文件

我目前正在使用 kind参数来指定下载的类型和 filename指定要生成的 csv 文件的名称这 rps limit bandwidth limit and batch size用于加速下载例如要下载我正在使用的游戏类型 appcf
Java 中的工作线程

我需要通过线程每分钟从表中读取数据然后执行某些操作任务完成后我是否应该启动一个线程并将其置于睡眠模式 1 分钟然后再次检查表是否有数据再次执行任务并休眠 1 分钟这是正确的方法吗任何人都可以为我提供一些 Java 示例代码来执
Java.lang.NoClassDefFoundError：com/fasterxml/jackson/databind/exc/InvalidDefinitionException

我已经更新了我的依赖项就像您在评论中所说的那样我现在有这个 org springframework context ApplicationContextException Unable to start embedded contain
Spring：如何将 KeyHolder 与 PostgreSQL 一起使用

最近迁移到 POSTGRESQL 我试图获取在数据库表中创建新条目时唯一生成的密钥桌子screenstable看起来像这样 CREATE TABLE screenstable id serial NOT NULL screenshot b
全屏 Swing 组件无法在 Mac OS X Mountain Lion 上的 Java 7 上接收键盘输入

12 21 更新 7u10 最近发布确认问题仍然存在值得庆幸的是解决方法仍然有效 11 7 更新我们有一个解决方法来自 Oracle 的 Leonid Romanov 在 openjdk java net 邮件列表上提供了一些关
创建 FileInputStream 对象时使用 InputStream 而不是 FileInputStream 有什么区别

这可能很愚蠢但我想知道后台操作的区别 InputStream is new FileInputStream filepath FileInputStream is new FileInputStream filepath 上面两行代码有什
从文件夹中读取java文件

我开发了一个应用程序可以从用户选择的文件夹中读取文件它显示每个文件中有多少行代码我只想在文件选择器中显示 Java 文件具有 java 扩展名的文件下面是我的代码 public static void main String ar
接受 05/05/1999 和 5/5/1999 等的日期时间解析

有没有一种简单的方法来解析可能为 MM DD yyyy M D yyyy 或某种组合的日期即在一位数字的日期或月份之前零是可选的要手动执行此操作可以使用 String dateFields dateString split int
获取 javax.crypto.IllegalBlockSizeException：使用填充密码解密时输入长度必须是 16 的倍数？

使用 tomcat 我有两个 Web 应用程序即 app1 和 app2 我以加密形式使用下面的代码将 url 从 app1 发送到 app2 然后在app2 我解密了这个加密的网址但我在第 50 行低于异常decryp方法 Get
使用 jsch 将远程服务器中的目录移动到同一远程服务器中的另一个位置

我正在使用 JSCH API 通过 sftp 连接到远程服务器我需要将远程服务器中的目录从位置 A 移动到位置 B 看起来像方法channelsftp put src dest 只允许移动文件而不移动目录有人可以解释一下我该怎么做吗您
找出网络上所有活动机器的IP

如何找到 LAN 上所有当前活动计算机的 IP 如何编写一个可以在任何子网上运行的通用程序我目前正在这样做尝试 isReachable 是否到达我子网上的所有机器如果他们这样做请存储他们的 IP 地址无论如何是否有其他方法可以手
大十进制减法

我想减去2double值我尝试了以下代码 double val1 2 0 double val2 1 10 System out println val1 val2 我得到的输出为 0 8999999999999999 为了获得输出0 9

随机推荐

远程访问docker容器中的web服务器

我已经开始使用 docker 进行开发设置如下主机 ubuntu 服务器 Docker 容器带 Tomcat 服务器的 Web 应用程序使用 https 就主机容器访问而言一切正常 However 我无法从远程计算机访问容器的 w
Java多维数组转字符串和字符串转数组

我有数组 data 转换为字符串 string Arrays deepToString data string 1 1394119227787 59474093 USD DKK true 0 05 5 391582 5 00663 5 39
如何设置onLongPress的持续时间

I know onLongPress会在一段时间如 500 毫秒左右后触发但我想做的是当用户按下按钮 3 秒左右时触发一些操作实际上我想设置持续时间onLongPress ElevatedButton onPressed gt pr
Coinbase API client.getAccount(...) 开始返回：“错误：无法获取本地颁发者证书”[重复]

这个问题在这里已经有答案了该问题于太平洋时间 2020 年 3 月 31 日上午晚些时候开始对 Coinbase 进行 API 调用的服务器托管在带有 node js GCP 的 Google App Engine 上几周前 Coin
没有为运行配置定义 SDK

当我尝试在 PyCharm 中运行我的项目时出现错误 SDK 未定义运行配置我尝试设置一个新的翻译并尝试了一切 SDK 是什么意思以及在哪里可以配置它我刚刚遇到了同样的问题请参阅上面的评论对我有用的是进入编辑配置删除从原始电脑
哪个 gem 破坏了 Rails application.css.scss 参数数量错误 3 为 2

好的这是gem更新引起的新问题调用 Bundle update 会破坏我的 Rails 应用程序以下是更改的宝石 Gemfile lock compass 0 12 7 compass 0 12 2 sass gt 3 2 19 sa
在 Windows 8 桌面应用程序上使用 MediaCapture

在 Windows 8 桌面应用程序上我需要使用 C 4 5 中的相机拍照我尝试使用 CameraCaptureUI 类但它在桌面应用程序上不可用所以我尝试使用 MediaCapture 类它可用于 Metro 应用程序或桌面应用
朱利安方法来执行Python的yield（以及yield from）

朱利安的收益率以及收益率方法是什么就像蟒蛇一样编辑我将尝试在 python 中添加小示例想想 4x4 棋盘找出国际象棋王可以走的每N步长路径不要浪费内存 gt 为每条路径生成生成器如果我们用数字签署每个位置 0 1 2 3
在实现中重新包含标头

假设我有一个标题foo h像这样 ifndef FOO H define FOO H include
Spinner 无法加载整数数组？

我有一个应用程序其中有一个微调器我想用一些数字 4 8 12 16 填充它我使用上述项目在 strings xml 中创建了一个整数数组对象将 Spinner 的条目设置为整数数组当我运行应用程序时我得到 04 19 23 38
Vnext 参数 1：无法从“string”转换为“System.IO.Stream”

我正在尝试创建一个Next 项目中的通用序列化器当我调用 StreamWriter 的构造函数时它会抛出此编译器错误错误 CS1503 参数 1 无法从字符串转换为 System IO Stream Test ASP NET Cor
从 Javascript 更改 CSS 规则集

是否可以动态更改 CSS 规则集即当用户单击小部件时某些 JS 会更改 CSS 规则集这个特定的 CSS 规则集应用于页面上的许多元素通过类选择器我想在用户单击小部件时对其进行修改以便所有具有class change 可以但
使用 Asp.net 路由的 IRouteHandler.GetHttpHandler 中的会话为 null

我试图在 IRouteHandler 类的 GettHttpHandler 方法中启用会话但会话始终为空有人可以告诉我我做错了什么吗在 global asax 我有 RouteTable Routes Add All new Rout
多次加载 DLL？

我正在使用LoadLibrary在 Windows 中加载 DLL 的函数我的问题是如果我对同一个 DLL 多次调用此方法我是否会获得该 DLL 的不同实例的句柄或者它们都引用同一个实例此外这种行为与 Linux SO 文件有何
有什么解决方案可以将验证码添加到 Django-allauth 吗？

有没有将验证码与 django allauth 一起使用的解决方案我想在注册表上使用验证码进行标准电子邮件密码注册我也需要用 django allauth 来做到这一点并发现实现django recaptcha封装起来比较简单配置
Node.js (ES6 / Babel) 中 import X 和 import * as X 的区别？

我有一个 Node js 库lib用 ES6 编写编译为Babel 其中我导出以下子模块 use strict import as config from config import as db from db import as sto
编译时按架构排除go源文件

我正在为 Windows 编写一个 Go 程序其中包含多个包其中一个包是使用 CGo 调用一些 h 和 c 文件中定义的一些函数这些 c 文件依赖于 windows h 由于在 Windows 平台上开发非常繁琐我想制作这个文件中的
防止递归函数中出现 StackOverFlow

我有一个递归函数BaseClass这依赖于一个protected virtual函数的返回条件子类可能会错误地覆盖此函数并导致StackOverFlow例外最糟糕的是有一些缓慢的网络调用并且异常不会很快发生许多资源浪费了很长一段时间
Swift DateFormatter 可选毫秒[重复]

这个问题在这里已经有答案了我有以下代码来解析 ISO8601 日期 let dateFormatter DateFormatter dateFormatter dateFormat yyyy MM dd T HH mm ss SSSZZZ
Jsoup.parse() 与 Jsoup.parse() - 或者 Jsoup 中的 URL 检测如何工作？

Jsoup 有 2htmlparse 方法解析字符串 html 由于没有指定基本 URI 因此是绝对 URL 检测依赖于包含标签的 HTML 解析字符串 html 字符串 baseUri HTML 所在的 URL 被检索自用于将相对

Jsoup.parse() 与 Jsoup.parse() - 或者 Jsoup 中的 URL 检测如何工作？

Jsoup.parse() 与 Jsoup.parse() - 或者 Jsoup 中的 URL 检测如何工作？ 的相关文章

随机推荐

热门标签

Jsoup.parse() 与 Jsoup.parse() - 或者 Jsoup 中的 URL 检测如何工作？的相关文章