获取 jsoup 中元素的字符偏移量

2024-03-08

我需要将 jsoup 元素映射回源 HTML 中的特定字符偏移量。换句话说,如果我的 HTML 看起来像这样:

Hello <br/> World

我需要知道“Hello”从偏移量 0 开始,长度为 6 个字符,<br/>从偏移量 6 开始,长度为 5 个字符,等等。

我在 Element javadoc 中找不到返回此信息的 getter。可以找回吗?


我不相信 Jsoup 有这个功能。这个问题看起来更接近于词法分析而不是 HTML 解析。

我会编写一个语法,然后针对该语法编写一个词法分析器,该语法分析器将标记 HTML,并提供您正在寻找的偏移量。

首先,使用 Jsoup 解析文档以验证它是否是有效的 HTML。

然后,根据语法对文档进行词法分析。语法可能如下所示:

Document := {optional-opening-tag} | {literal} {optional-opening-tag} | {optional-closing-tag}

optional-opening-tag := ["<" {literal} ">" {optional-opening-tag}|{literal} ] | ""

optional-closing-tag := "</ {literal} ">" | ""

literal := any string of characters not beginning with whitespace, or containing "<"

将您找到的每个标记插入存储标记、第一个字符的索引和长度的对象中。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

获取 jsoup 中元素的字符偏移量 的相关文章

  • 编写 Z80 汇编程序 - 词法 ASM 并使用组合构建解析树?

    我对编写汇编器的概念非常陌生 即使在阅读了大量材料之后 我仍然很难理解几个概念 将源文件实际分解为令牌的过程是什么 我相信这个过程称为词法分析 我已经到处搜索有意义的真实代码示例 但我找不到如此简单的代码示例 非常受欢迎 解析时 信息是否需
  • 如何使用 jsoup 替换标签

    我想将所有图像标签替换为div标签 我可以选择所有标签 并且我知道我必须使用replaceWith 但我无法使用它 如果我使用TextNode替换为 div div 它转换成 amp lt div amp gt my div amp lt
  • Jsoup.connect() 适用于 Java,不适用于 Android

    我已经尝试过Jsoup connect Jsoup 网站上给出的示例 它在 Java 中运行良好 由于某种原因 即使我在我的项目中允许互联网访问权限 我也无法使其在 Android 项目 Eclipse 中工作AndroidManifest
  • 如何使用 Jsoup 获取此文本?

    如何使用 Jsoup 从以下 html 代码中获取 此文本 h2 class link title a href myhref html this text img width 10 height 10 src img jpg span c
  • Flex/bison,错误:未声明

    你好 我有一个问题 下面的程序返回一个错误 error Undeclared first use in function 为什么会出现这个错误所有令牌都被声明了 但是这个错误来了 任何人都可以帮助我 这里是 lex 和 yac 文件 谢谢
  • 解析 FlightRadar24 和 JSOUP

    大家好 我想在 Flightradar24 com 上解析航班 我尝试过 JSOUP 和 Android 但结果为空 http postimg org image 6hdmp4hgv http postimg org image 6hdmp
  • 如何获取html元素的绝对路径

    String html Jsoup connect url timeout 1000 1000 get html Document doc Jsoup parse html Elements H2 doc select div h2 for
  • 使用 Jsoup 获取网页元素

    我正在尝试使用Jsoup从名为 Morningstar 的网站获取股票数据 我查看了其他论坛 但无法找出问题所在 我正在尝试进行更高级的数据报废 但我似乎甚至无法获得价格 我要么返回 null 要么什么也没有返回 我知道其他语言和 API
  • Android Jsoup,为什么我无法获取正确的img src

    我无法获得正确的 img src 这是我想要获取的 HTML 该图像是数据方案 URI img class rg i Q4LuWd tx8vtf src alt 大阪 保護猫 SAVE CAT CAFE 而且 这是我的代码 val url
  • 简单的C程序

    该程序基于K R中输入 输出部分的程序 include
  • Java编译器不会自动优化字符串连接?

    下列Jsoup http jsoup org apidocs org jsoup nodes Element html text 28 29代码连接容器中所有元素的文本els for Element el els entireText el
  • 使用 Jsoup 解析 XML

    我得到以下代表新闻文章的 XML
  • 使用 JSoup 作为服务显示超链接的 ListView

    我最近需要收集并显示超链接列表 这很有帮助example https stackoverflow com a 73160763 230513说明使用jsoup questions tagged jsoup and a Task
  • 使用 JSoup 解析 Html

    我正在尝试解析以下 URL 的 html http ocw mit edu courses aeronautics and astronautics 16 050 Thermal energy fall 2002 http ocw mit
  • 如何让jsoup等待完整页面(跳过进度页面)加载? [复制]

    这个问题在这里已经有答案了 我正在尝试使用 Jsoup 解析网页并提取数据 但该链接是动态的 在显示详细信息之前会弹出一个等待加载的页面 所以Jsoup似乎处理的是等待页面而不是详情页面 有没有办法让这个等到页面完全加载 如果页面加载后动态
  • JSoup 不适用于 AsyncTask

    我注意到我的应用程序发生了一件有趣的事情 我在 AsyncTask 中使用 Jsoup 之后我的应用程序崩溃了 LogCat 是 12 15 11 16 43 023 I dalvikvm 371 Could not find method
  • jSoup 从 类获取文本

    我有一部分 HTML 文件 格式如下 h6 class uiStreamMessage span class messageBody Welcome span h6 在该文件中 还有其他跨度类 但我只想获取所有 messageBody 范围
  • HTML 解析和删除锚标记,同时使用 Jsoup 保留内部 html

    我必须解析一些html并删除锚标记 但我需要保留锚标记的innerHTML 例如 如果我的 html 文本是 String html div p some text a href some link text a p div 现在我可以解析
  • 在 Java 中从复杂的 HTML 表格中提取数据到二维数组

    如何转换 HTML 表格带有 colspan 和 rowspanJava中的二维数组 矩阵 我在 Python 和 jQuery 中找到了很好的解决方案 但在 Java 中却没有 只有通过 jsoup 的非常简单的表 XSLT 有一种很好的
  • Jsoup遍历DOM树时节点哈希码冲突

    我正在使用 java jsoup 构建 HTML DOM 树 其中Node hashCode 用来 但我发现在遍历DOM树时存在很多哈希码冲突 使用以下代码 doc traverse new NodeVisitor Override pub

随机推荐