Groovy XmlSlurper 获取没有子节点的节点的值

2024-02-19

我正在解析 HTML 并尝试获取父节点本身的值，而不获取子节点的值。

HTML 示例：

<html>
    <body>
        <div>
             <a href="http://intro.com">extra stuff</a>
             Text I would like to get.
             <a href="http://example.com">link to example</a>
        </div>
    </body>
</html>

Code:

def tagsoupParser = new org.ccil.cowan.tagsoup.Parser()
def slurper = new XmlSlurper(tagsoupParser)
def htmlParsed = slurper.parseText(stringToParse)

println htmlParsed.body.div[0]

然而上面的代码返回：

我想要得到的额外内容文本。链接到示例

如何仅获取父节点值而不获取子节点值？例子：

我想得到的文字。

附：我尝试通过执行子字符串来删除额外的元素，但事实证明它是不可靠的。

如果您切换到使用XmlParser代替XmlSlurper，你可以做：

println htmlParsed.body.div[0].localText()[0]

假设你是在 Groovy 2.3+ 上 http://docs.groovy-lang.org/latest/html/api/groovy/util/Node.html#localText()

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Groovy

htmlparsing

Nodes

xmlslurper

Groovy XmlSlurper 获取没有子节点的节点的值的相关文章

匹配嵌套的html注释块正则表达式[重复]

这个问题在这里已经有答案了我有这个 html 代码块 some html content here top base some html content here 1 top some html content here 2 top so
以编程方式将网页保存到静态 HTML 文件的最佳方法

我做的研究越多前景就越黯淡我正在尝试使用 Python 进行平面保存或静态保存网页这意味着将所有样式合并到内联属性并将所有链接更改为绝对 URL 我尝试过几乎所有免费的转换网站 api 甚至 github 上的库没有一个是那么令人
Groovy == 运算符

到目前为止我的理解是是一个运算符重载 equals 然而我最近发现 new Integer 1 new Long 1 returns true whereas new Integer 1 equals new Long 1 return
如何在 Intellij IDEA 实时模板 groovy 脚本中将变量传递给 groovy 代码？

我有一个groovyScript in my IntellijIDEA 实时模板如下所示 groovyScript D test groovy v1 on my D test groovy我有这样的代码 if v1 abc abc 现在我
在 Python 中使用邻接表构建节点图

我有一个Node类如下 class Node def init self val 0 neighbors None self val val self neighbors neighbors if neighbors is not None
开源html解析类无法正确解析段落之间的空格

我正在使用一种开源方法将 html 文本解析为 NSString 生成的字符串在前几个段落之间有大量空格但后续段落只有一行空格这是输出的示例 Below is the method I m calling I ve only chan
Heroku：无法访问该网站

我的 heroku 应用程序在构建后无法访问日志显示 Web 服务器节点和工作节点都在监听这是一个由 Gunicorn 运行的 Flask 应用程序它有 2 个插件 newrelic 和 redistogo Error This si
Groovy 错误地使用了封闭类的构造函数？

Given static class Question stuff List
在 Python 3.2 中使用 HTMLParser

我一直在使用 HTML 解析器从网站中抓取数据并剥离 html 编码我知道各种模块例如 Beautiful Soup 但决定走不依赖外部模块的道路 Eloff 提供了一个代码在 Python 中从字符串中去除 HTML https
QDomDocument 无法设置带有标记的 HTML 文档的内容

当我使用QDomDocument对于 HTML 内容如果存在则无法设置内容在文档的开头但实际上为什么例如考虑以下代码片段 QDomDocument doc QString content a href bar foo a qDebu
如何在 groovy 中将输出重定向到 stderr？

我正在寻找一种将 groovy 脚本中的输出重定向到 stderr 的方法 catch Exception e println Want this to go to stderr 就在我的脑海中你不能做一些自我接线吗 def printE
Grails 操作被调用两次。帮助！

我正在编写一个 grails 应用程序并遇到一个奇怪的问题单击页面上的提交按钮时关联的操作会快速连续调用两次这会导致一切都严重破坏以前有其他人见过这个问题吗下面是我的代码从普惠制页面
网页抓取（R 语言？）

我想获取中间栏中的公司名称this http www consumercomplaints in bysubcategory mobile service providers page 1 html页面以蓝色粗体书写以及登记投诉者的位置
使用 groovy DOMBuilder 省略空属性

格罗维的标记生成器 http groovy codehaus org api groovy xml MarkupBuilder html has an omitNullAttributes and an omitEmptyAttribute
SOAPUI：如何包含外部文件中的 Groovy 脚本

How can I include groovy script from an external file 我试图使用 def script new GroovyScriptEngine d soapui payment v2 with l
如何将任务添加到 gradle 中的主要“构建”任务

当我尝试使用以下代码将任务添加到主构建任务时 rootProject tasks getByName build dependsOn mytask 当我跑步时它抱怨gradle w build输出 Where Build file line
部署 Grails 应用程序时出错 - 初学者

我在部署 Grails 应用程序时遇到问题一切都在本地测试环境中运行 ERROR localhost startStop 1 错误 context GrailsContextLoader 错误初始化应用程序使用名称创建 bean 时出
如何在 Grails Geb/Spock 测试用例中获取 sessionFactory？

我想我需要在 GebSpec 测试中刷新 hibernate 会话所以我想获取 sessionFactory 看起来应该被注入但是当我做这样的事情时 class MySpec extends GebSpec def sessionFac
Grails - 如何对 addTo* 进行单元测试

是否可以在 Grails 中对 addTo 函数进行单元测试感谢您的帮助文档第 9 1 节中说 http grails org doc latest guide 9 20Testing html 9 1 20Unit 20Testing
Spark/Gradle -- 在 build.gradle 中获取 IP 地址以用于启动 master 和worker

我在基本层面上了解 build gradle 构建脚本的各个移动部分但无法将它们全部结合在一起在 Apache Spark 独立模式下只需尝试从 build gradle 在同一个机器上启动 master 和worker 稍后将使用

随机推荐

JPA - 在 IN 运算符中使用长数组会引发强制转换异常

我是 JPA 新手能够快速获取它我一直在查询中使用 IN 运算符尝试选择查询并且一直收到错误信息我所做的是我从函数中获取一组长消息 id 然后使用它根据这些 id 选择记录这是我的查询 select t from Messa
React 和 Socket.io | useState 在输入中 onChange 生成新的套接字连接

我正在使用 React 和 Socket io 但有一个问题我在输入字段中写入的每个字符都会创建一个新的套接字 ID 但我不希望发生这种情况当我删除 onChange 方法中的 setUsername e target value 时
如何使用php从服务器在客户端打印机上打印

我想在客户端计算机上使用php php也在服务器上运行打印pdf文件 pdf文件在服务器上我怎样才能做到这一点预先感谢您的帮助您不能直接执行此操作因为 php apache 服务器与浏览器客户端运行在完全不同的计算机可能还有地
致命错误：在非对象上调用成员函数 query()

我使用了下面的代码它产生了一个致命错误 mysql connect localhost or die mysql error mysql select db or die mysql error sel12 db gt query SEL
禁用 Flyway 占位符验证

因此由于某些要求而升级我的 Flyway 版本后我了解到 Flyway core 2 2 引入了对 Flyway 占位符的一些验证现在占位符语法的约定在大多数库中都是统一的 name 在我们的迁移脚本中我们在名为stretchyS
指定 DataGrid 单元格跨多列

我提到了这个Answer https stackoverflow com questions 16470860 make some of datagrid cells span multiple columns但它不起作用列仍扩展到行内容
如何将基于 www 的 URL 动态重定向到同一 VirtualHost 中具有多个域的非 www URL

我有一个看起来像这样的虚拟主机
CardView在RecyclerView中选择背景颜色

我正在尝试使用 CardViews 编写 RecyclerView 并使用 CAB 尝试删除选择的多个卡我如何为所选卡提供背景颜色我正在尝试使用 statelistdrawable 如下
如何将插件添加到 Oomph 产品设置中？

我想创建一个自定义 EclipseMybatipse https marketplace eclipse org content mybatipse以及默认安装的一些其他插件我正在 Eclipse 中使用 Oomph 产品设置来创建我的产
CDI 事件观察器方法与 EJB 兼容吗？

我有一个 Singleton EJB javax ejb Singleton 版本叹息它有一个 CDI 观察者方法当我尝试将其部署到 glassfish 3 1 时服务器无法部署 EAR 文件没有任何真正的解释只是说部署期间出现
如何拦截并翻译USB事件

我想使用飞利浦 LFH 2330 查看图像使用 Windows Image Viewer 或其他查看器如 IrfanView 等 LFH 2330 是一款带有四个踏板的脚踏控制器参见here http www aaaaudio net
HTTP 请求正文无法通过 AWS API Gateway 访问 AWS lambda 函数

我有一个用 Scala 编写的非常基本的 lambda 函数部署到 AWS Lambda 当我通过 AWS Lambda 控制台测试该函数时该函数运行良好这是出于调试目的添加了一些附加日志记录的函数 package com space
给定坐标，如何获取 10 英里半径内的所有邮政编码？

我有一个位置纬度和经度如何获取部分或全部位于我所在位置 10 英里半径范围内的邮政编码列表该解决方案可以是调用众所周知的 Web 服务 google 地图 bing 地图等或本地数据库解决方案客户端有 sql server 200
Git pull 失败：您有未暂存的更改。 Git 状态：没有任何可提交的内容（工作目录干净）

当尝试执行 git pull 时我得到你有未暂存的更改当我执行 git status 时它会显示没有要提交的内容工作目录干净为什么我可以执行 git reset hard 然后拉但我不明白为什么拉第一次失败如果您有旧版本
什么是边缘导轨？

边缘导轨是什么意思我在网上找到了一些提示但不清楚这是否意味着最新的Rails或Rails 2 2还是什么边缘导轨是Rails 主分支 http github com rails rails commits 这意味着最新提交之前的一
流畅的 NHibernate 获取视图，无需唯一标识符

我正在尝试映射没有标识符的视图但 nhibernate 仍然生成带有 id 列的 sql 给我一个 sql 错误因为数据库中不存在 ID 列也许我误解了 Id 构造函数构造函数注释创建一个在域对象中没有对应属性的Id 或数据库中的
SAS列出并存储指定库下的所有表名到表中

在库测试下我有 5 个数据集如何列出所有表名称 proc datasets lib work quit run 虽然我想进一步利用这些信息就像表名一样 Thanks 使用 SQLdictionary tables view pro
禁用 Firefox 网络通知的默认警报声音

我正在使用网络通知API https developer mozilla org en US docs Web API Notification Using Web Notifications在 OSX 下显示来自我的网络应用程序的桌面通知
对变量使用替换

我将如何在 vimscript 中完成以下功能 fun Foo let l bar Hello there world Perform a substitution on l bar changing world to kitten end
Groovy XmlSlurper 获取没有子节点的节点的值

我正在解析 HTML 并尝试获取父节点本身的值而不获取子节点的值 HTML 示例 div a href http intro com extra stuff a Text I would like to get a href http e

Groovy XmlSlurper 获取没有子节点的节点的值

Groovy XmlSlurper 获取没有子节点的节点的值 的相关文章

随机推荐

热门标签

Groovy XmlSlurper 获取没有子节点的节点的值的相关文章