从 lxml 获取内部文本

2023-12-22

lxml.html.fromstring 坚持将所有内容包装在标签中(p默认)。从这个标签树来看,

<p>this is <b>the</b> good stuff<p>

我想提取字符串:

this is <b>the</b> good stuff

我该怎么做呢?


这通常被称为“内部 xml”而不是“内部文本”。这是获取元素内部 xml 的一种可能方法:

import lxml.etree as etree
import lxml.html

html = "<p>this is <b>the</b> good stuff<p>"
tree = lxml.html.fromstring(html)
node = tree.xpath("//p")[0]

result = node.text + ''.join(etree.tostring(e) for e in node)
print(result)

output :

this is <b>the</b> good stuff
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

从 lxml 获取内部文本 的相关文章

随机推荐

  • 最新的omniauth-facebook gem 破解方案

    红宝石 2 6 3 gem rails gt 6 0 2 gt 6 0 2 1 我正在使用最新的omniauth facebook并一起设计 宝石文件 宝石 设计 gem omniauth facebook 启动服务器时出现此错误 vers
  • Docker MySQL连接DBeaver

    我刚刚完成了 YouTube 上的 Docker 教程 我能够为 PHP 和 MySQL 创建几个 Docker 容器 文件结构如下 gt Docker PHP MySQL gt DB Dockerfile gt src index php
  • 类型分类百科中应用语的构成规律

    我在读类型分类百科全书 https wiki haskell org Typeclassopedia我在应用程序部分遇到了麻烦 我想我 有点 已经弄清楚了 但我想看看我的理解是否正确 直到组合法出现之前 适用法则才有意义 我只是无法解析其右
  • 为什么主活动关闭时远程服务会被销毁?

    我编写了一个 android 程序 有一个 UI 主要活动 并且它启动一个服务 该服务及时回调 UI 活动以更新视图 它工作正常 除了 如果活动关闭 使用 BACK 并再次启动 服务也将再次启动 服务播放音频文件 因此有两个重叠的声音 我使
  • 链接到当前页面中的元素[关闭]

    很难说出这里问的是什么 这个问题是含糊的 模糊的 不完整的 过于宽泛的或修辞性的 无法以目前的形式得到合理的回答 如需帮助澄清此问题以便重新打开 访问帮助中心 help reopen questions 我创建了一个 HTML 页面 其中包
  • 如何创建多表检查约束?

    请想象一下这个小数据库 Diagram 删除了无效的 ImageShack 链接 志愿者数据库图 Tables Volunteer Event Shift EventVolunteer Id Id Id EventId Name Name
  • 获取 PHP DOM 中节点的文本

    如何使用 PHP DOM 从此标记中提取字符串 text div span notthis span text div div gt nodeValue包括 notthis 您可以访问DOMText直接使用 XPath 的节点 xpath
  • 如何在多进程和多线程环境中生成随机唯一标识符?

    我提出的每个解决方案都不是线程安全的 def uuid cls db u hexlify os urandom 8 decode ascii db execute SELECT sid FROM sessions WHERE sid u i
  • primeng:把重点放在控制上

    抱歉这个菜鸟问题 使用 primeng 包时 将焦点设置在控件上的推荐方法是什么 使用传统输入控件时 我设置一个表单变量 variable 并使用 ViewChild 获取对它的引用 以便我可以访问其本机元素 this variable n
  • 如何在 MySQL 中的 instr() 中使用区分大小写?

    可能重复 如何在 MySQL 的 instr 中应用通配符 https stackoverflow com questions 1905119 how to apply wildcard in instr in mysql 可能的重复链接显
  • 按一列分组并显示另一列的所有结果

    大家好 我正在尝试解决这个问题 但找不到解决方案 我有 2 列 正在尝试按第一列进行选择和分组 并显示第二列中的所有记录 我的桌子是 RegNo Name C117 Mariya Mathew C117 Baino Baby C117 Ma
  • SqlLocalDb 中的 Service Broker 或 SqlDependency?

    Is SqlDependency支持于SqlLocalDb 如果是的话如何启用 回答您主题中有关 Service Broker 的问题 Service Broker 在 LocalDB 中应该可以正常工作 但只有本地队列可用 远程队列在任一
  • CSS Reset 与 * 通配符

    为什么我不能简单地重置 margin 0 padding 0 font size 100 代替 html body div span object iframe h1 h2 h3 h4 h5 h6 p blockquote pre abbr
  • Java 解压缩实用程序的性能不佳

    我注意到 与使用 WinZip 等本机工具相比 Java 中的解压缩工具非常慢 有没有更高效的 Java 第三方库 开源是首选 Edit 以下是使用 Java 内置解决方案与 7zip 的速度比较 我在原来的解决方案中添加了缓冲输入 输出流
  • C# 中的引用传递到底是如何工作的?

    我想知道 C 中的引用传递是如何工作的 如果我通过引用函数传递 WPF DataGrid 控件 并慢慢让该函数将项目添加到其 DataGrid Items 集合中 则 UI 中的 DataGrid 是否会随着每个新的 DataGrid It
  • 在 navbar-fixed-top 之前添加标题图像

    如何添加标题图像 使其显示在导航栏固定顶部的顶部 当用户向下滚动时 导航栏会粘在顶部吗 我尝试将其添加到容器中 但它没有按预期工作 到目前为止 这是我的代码
  • 如何更新具有特定列名的所有表

    我正在尝试更新以 agg 和column name userid 等字符串开头的所有表 但我在网上没有看到任何此类示例 即使我能够找到选择具有特定列名称和表名称的所有表的选项 我也需要执行相同的操作来更新这些表 如下所示 update TA
  • T SQL 分组时选择最小和最大行

    假设我有一个包含很多行的表 如下所示 ID Range Range begining Profit 1 100 150 100 20 2 200 250 200 40 2 3 100 150 100 100 4 450 500 450 90
  • 使用 boost::numpy::ndarray 时出现分段错误

    当我试图通过时 我发现了一个奇怪的段错误boost numpy ndarray作为一个论点 include
  • 从 lxml 获取内部文本

    lxml html fromstring 坚持将所有内容包装在标签中 p默认 从这个标签树来看 p this is b the b good stuff p p 我想提取字符串 this is b the b good stuff 我该怎么