使用 XPath 提取标签之间的文本（包括标记）

2024-01-27

我有以下 XML 片段：

...<span class="st">In Tim <em>Power</em>: Politieman...</span>...

我想提取之间的部分标签。为此，我使用 XPath：

   /span[@class="st"]

然而，这将提取所有内容，包括. and.

  /span[@class="st"]/text()

将返回两个文本元素的列表。其中一首包含“In Tim”。另一个“：政治家”。这..不包括在内，并且像分隔符一样处理。

是否有一个纯 XPath 解决方案返回：

In Tim <em>Power</em>: Politieman...

EDIT感谢@helderdarocha 和@TextGeek。使用仅包含以下内容的 XPath 提取纯文本似乎并不简单.

/span[@class="st"]/node() 解决方案创建一个包含各个行的列表，在 Python 中创建一个字符串很简单。

To get any您可以使用子节点：

/span[@class="st"]/node()

这将返回：

两个子文本节点
完整的节点（元素和内容）。

如果你真的想要所有text()节点，包括里面的节点em，然后得到所有的text()后人：

/span[@class="st"]//text()

/span[@class="st"]/descendant::text()

这将返回三个文本节点，文本inside ，但不是元素。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

xpath

使用 XPath 提取标签之间的文本（包括标记）的相关文章

minAreaRect OpenCV 返回的裁剪矩形 [Python]

minAreaRectOpenCV 中返回一个旋转的矩形如何裁剪矩形内图像的这部分 boxPoints返回旋转矩形的角点的坐标以便可以通过循环框内的点来访问像素但是在 Python 中是否有更快的裁剪方法 EDIT See code在
在 Jupyter Notebook 中设置环境变量的不同方法

在某些情况下我在 Windows 10 计算机上使用 Jupyter 笔记本我想通过设置环境变量 GOOGLE APPLICATION CREDENTIALS 来向 GCP 进行身份验证我想知道这两种设置环境变量的方式有什么区别当
检查子字符串是否在字符串列表中？

我之前已经找到了这个问题的一些答案但它们对于当前的Python版本来说似乎已经过时了或者至少它们对我不起作用我想检查字符串列表中是否包含子字符串我只需要布尔结果我找到了这个解决方案 word to check or wordlis
如何将脚本作为 pytest 测试运行

假设我有一个用简单脚本表示的测试assert 陈述请参阅背景了解原因例如 import foo assert foo 3 4 我如何以一种好的方式将该脚本包含在我的 pytest 测试套件中我尝试了两种有效但不太好的方法一种方法是将
Python 中 time.sleep 和多线程的问题

我对 python 中的 time sleep 函数有疑问我正在运行一个脚本需要等待另一个程序生成 txt 文件虽然这是一台非常旧的机器所以当我休眠 python 脚本时我遇到了其他程序不生成文件的问题除了使用 time sl
如何调试 numpy 掩码

这个问题与this one https stackoverflow com q 73672739 11004423 我有一个正在尝试矢量化的函数这是原来的函数 def aspect good angle float planet1 goo
将多索引转换为行式多维 NumPy 数组。

假设我有一个类似于以下示例的 MultiIndex DataFrame多索引文档 http pandas pydata org pandas docs stable advanced html gt gt gt df 0 1 2 3 fir
如果另一列中的值为空，则删除重复项 - Pandas

我拥有的 df Name Vehicle Dave Car Mark Bike Steve Car Dave Steve 我想从名称列中删除重复项但前提是车辆列中的相应值为空我知道我可以使用 df dropduplicates
Karasuba算法递归过多

我正在尝试用 c 实现 Karasuba 乘法算法但现在我只是想让它在 python 中工作这是我的代码 def mult x y b m if max x y lt b return x y bm pow b m x0 x bm x1
打印一份拥有多个家庭的人员名单，每个家庭都有多个电话号码

我有一类 Person 它可以有多个 Home 每个 Home 都有一个或多个电话号码我已经定义了类但现在我正在尝试创建一个视图其中列出每个人的所有家庭以及每个家庭地址的所有电话号码类似于 john smith 123 fake s
Bokeh 中单独的节点和边缘悬停工具？

我正在尝试为 Bokeh 中的节点和边缘获取单独的悬停工具提示但未能使其正常工作有人可以指出我做错了什么吗我相信代码应该如下所示 from bokeh io import show output notebook from bokeh
Python：“直接”调用方法是否实例化对象？

我是 Python 新手在对我的对象进行单元测试时我注意到一些奇怪的东西 class Ape object def init self print ooook def say self s print s def main Ape
如何让 Streamlit 每 5 秒重新加载一次？

我必须每 5 秒重新加载 Streamlit 图表以便在 XLSX 报告中可视化新数据如何实现这一目标 import streamlit as st import pandas as pd import os mainDir os pa
我可以在 if 语句中使用“as”机制吗

是否可以使用as in if类似的声明with我们使用的例如 with open tmp foo r as ofile do something with ofile 这是我的代码 def my list rtrn lst True if
有没有办法拉伸整个显示图像以适应给定的分辨率？

我最近一直在使用pygame制作游戏遇到了一个小问题基本上我希望能够将屏幕上的整个图像我已经传输到它的所有内容拉伸到用户将窗口大小调整到的分辨率我在 pygame 和堆栈溢出的文档中搜索了很多但我似乎找不到答案这可能吗我的
在 anaconda 环境下运行 qsub

我有一个程序通常在 Linux 的 conda 环境中运行因为我用它来管理我的库指令如下 source activate my environment python hello world py 我怎样才能跑你好世界 py在与 PBS
在不同的 GPU 上同时训练多个 keras/tensorflow 模型

我想在 Jupyter Notebook 中同时在多个 GPU 上训练多个模型我正在使用 4GPU 的节点上工作我想将一个 GPU 分配给一个模型并同时训练 4 个不同的模型现在我通过例如为一台笔记本选择 GPU import
旧版本的 spaCy 在尝试安装模型时抛出“KeyError: 'package'”错误

我在 Ubuntu 14 04 4 LTS x64 上使用 spaCy 1 6 0 和 python3 5 为了安装 spaCy 的英文版本我尝试运行这给了我错误消息 ubun ner 3 NeuroNER master src pyt
如何在supervisord中设置组？

因此我正在设置 Supervisord 并尝试控制多个进程并且一切正常现在我想设置一个组以便我可以启动停止不同的进程集而不是全部或全无这是我的配置文件的片段 group tapjoy programs tapjoy game1
OSError: [WinError 193] %1 不是有效的 Win32 应用程序，同时使用 CTypes 在 python 中读取自定义 DLL

我正在尝试编写用 python 封装 C 库的代码我计划使用 CTypes 来完成此操作并使用 Visual Studio 来编译我的 DLL 我从一个简单的函数开始在 Visual Studio 内的标头中添加了以下内容然后将其构

随机推荐

Java 中连续“if”语句的简化[重复]

这个问题在这里已经有答案了我有一系列if语句如下图 if board x 1 y true ar 1 if board x y 1 true ar 1 if board x 1 y true ar 1 if board x y 1 tr
OpenCV - 如何在拼接图像的对应点之间进行映射

我正在使用 OpenCV 3 2 并且设置了一个缝合器来缝合两个图像缝合效果很好但是一旦完成我希望能够确定从图像 A 中的点到图像 B 中对应点的映射我不关心图像在全景图中的布局方式我只需要能够从 x A y A 图像 A 中的点
从 power bi 公共嵌入中删除共享栏

我有一份关于 power bi 的报告已发布在网络上我将在我的计算机上创建一个本地页面以通过嵌入代码查看它并在 Dropbox 上与其他人共享我想删除带有社交媒体链接的按钮栏以防止共享我还可以阻止显示 iframe 源链接吗也
for 循环中的隐式内存别名

我正在使用 golangci lint 并且在以下代码中收到错误 versions ObjectDescription populate versions for i v range versions res createWorkerFor
如何在 postgresql 中创建 n-gram

我希望在我的应用程序中具有搜索功能我使用 trigram 来实现它并且工作正常问题是 trigram 正在创建单词的 3 个字符组的序列我想要在单个对象中包含超过 3 个字符例如 select show trgm abcpqrs
HTTP 缓存控制 max-age，必须重新验证

我有几个与缓存控制相关的疑问如果我指定缓存控制max age 3600 must revalidate对于静态 html js images css 文件在 HTTP 标头中定义了 Last Modified 标头浏览器代理缓存如
从 Windows 服务启动 Windows 应用程序

我正在尝试使用以下代码从 Windows 服务启动 Windows 应用程序 Process Start filename exe 在 Windows 7 中我收到一个弹出窗口显示此计算机上运行的程序正在尝试显示一条消息您无法从 W
Python subprocess.popen() 无需等待

我在 Windows 上使用 Python 3 4 2 在 script1 py 中我正在这样做 myProc subprocess Popen sys executable script2 py argument myProc commu
iPhone 上奇怪的应用程序崩溃 - 没有被 Apple 拒绝

我最近通过 iTunes Connect 向 Apple 提交了我的应用程序它现在已在 iTunes 商店中然而当我把它下载到朋友的 iPhone 上时它立即崩溃了我在 iPhone 模拟器和 iPad 上进行了测试我没有 iP
可编辑数据表 RowKey Null

我有一个可编辑的 Primefaces 数据表配置为在编辑单元格时调用 onCellEdit 方法一切工作都很好除了 CellEditEvent rowKey 始终为 null 尽管在数据表声明中使用 rowKey 将其显式设置为有效
在 Windows 上，如何检测文件的行结尾？

我已经看到了这些问题的答案但据我所知这些答案并不是从 Windows 角度来看的 Windows 使用 CR LF Unix 使用 LF Mac 使用 LF 经典 mac 使用其他内容我没有足够的智慧来告诉我如果一个文件使用的行尾与
如何使浏览器后退按钮忽略主题标签？

我有一个网站它使用哈希来打开关闭当前页面上的一些选项卡和图层使用哈希值的原因是如果用户通过链接访问另一个页面然后返回原始页面则所有选项卡和图层的打开方式都应与离开该页面时完全相同问题是在第一页上并使用浏览器后退按钮时只有哈
Bower：ENOGIT Git 未安装或不在 PATH 中

Git 已安装并位于路径中平台红帽企业 Linux en wikipedia org wiki Red Hat Enterprise Linux 5 8 gt which git usr local bin git 然而 Bower 找
基于窗口调整大小的 jQuery 位置元素

如果您查看此页面 http dev driz co uk tips http dev driz co uk tips 我正在做一些实验来更多地了解 jQuery 以及如何开发类似于我们在 Facebook 上看到的东西您将看到我有一个相对
Tensorflow.compat.v2.__internal__.tracking'没有属性'TrackableSaver'错误

安装 Tensorflow js 后出现此错误以前这个程序是有效的会不会是版本的问题我真的很好奇是什么原因造成的提前致谢 File OneDrive Masa st Bitirme Proje neural network sini
Android - Google Map API v2 - 不幸的是，应用程序已停止。每次强制关闭

大家好我在这里找到了关于使用 Google Map API 时强制关闭 Android 中的应用程序的类似主题我几乎尝试了所有方法一步一步按照教程进行操作并检查了两次以上每次出现问题并且我的应用程序都会立即崩溃我什至无法运行 Go
Bootstrap-select插件：如何避免闪烁

Bootstrap select 插件非常棒 http silviomoreto github io bootstrap select http silviomoreto github io bootstrap select 它提供了一种在
Ruby on Rails、Paperclip、Heroku、GitHub 和 AWS - 保护密钥

我正在使用 Heroku 托管的 RoR 我想使用回形针将文件存储在 s3 上我的源代码托管在 github 上全世界都可读对世界其他地方保密密钥的最佳做法是什么 Paperclip 建议将访问密钥存储在配置文件或代码中例如我有
使用单链表，如何在python中交换节点？

目前我一直在尝试根据我的主功能开关 myList index 重新排列链表 def createList plist linkedList None goes backwards adding each element to the be
使用 XPath 提取标签之间的文本（包括标记）

我有以下 XML 片段 span class st In Tim em Power em Politieman span 我想提取之间的部分 span 标签为此我使用 XPath span class st 然而这将提取所有内容包括

使用 XPath 提取标签之间的文本（包括标记）

使用 XPath 提取标签之间的文本（包括标记） 的相关文章

随机推荐

热门标签

使用 XPath 提取标签之间的文本（包括标记）的相关文章