Python 元素树 - 从元素中提取文本，剥离标签

2024-03-17

使用 Python 中的 ElementTree，如何从节点中提取所有文本，剥离该元素中的任何标签并仅保留文本？

例如，假设我有以下内容：

<tag>
  Some <a>example</a> text
</tag>

我想回来Some example text。我该怎么做呢？到目前为止，我所采取的方法已经产生了相当灾难性的结果。

如果您在Python 3.2+下运行，您可以使用itertext.

itertext创建一个文本迭代器，它按文档顺序循环遍历此元素和所有子元素，并返回所有内部文本：

import xml.etree.ElementTree as ET
xml = '<tag>Some <a>example</a> text</tag>'
tree = ET.fromstring(xml)
print(''.join(tree.itertext()))

# -> 'Some example text'

如果你运行的是较低版本的Python，可以复用实施itertext() https://github.com/python/cpython/blob/2.7/Lib/xml/etree/ElementTree.py#L498通过将其附加到Element类，之后您可以像上面一样调用它：

# original implementation of .itertext() for Python 2.7
def itertext(self):
    tag = self.tag
    if not isinstance(tag, basestring) and tag is not None:
        return
    if self.text:
        yield self.text
    for e in self:
        for s in e.itertext():
            yield s
        if e.tail:
            yield e.tail

# if necessary, monkey-patch the Element class
if 'itertext' not in ET.Element.__dict__:
    ET.Element.itertext = itertext

xml = '<tag>Some <a>example</a> text</tag>'
tree = ET.fromstring(xml)
print(''.join(tree.itertext()))

# -> 'Some example text'

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

xmlparsing

elementtree

Python 元素树 - 从元素中提取文本，剥离标签的相关文章

AttributeError：'function'对象在pandas中没有属性'bar'

我有一个 pandas 数据框它是 pandas 数据框类型如下所示 type df Out 176 pandas core frame DataFrame 但是当我尝试在此数据框上使用任何绘图函数如条形图时会出现如下错误 df
分配列表的多个值

我很想知道是否有一种 Pythonic 方式将列表中的值分配给元素为了更清楚我要求这样的事情 myList 3 5 7 2 a b c d something myList So that a 3 b 5 c 7 d 2 我正在寻找比手
Python Numpy Reshape错误[关闭]

Closed 这个问题是无法重现或由拼写错误引起 help closed questions 目前不接受答案我在尝试重塑 3D numpy 数组时遇到一个奇怪的错误数组 x 的形状为 6 10 300 我想将其重塑为 6 3000 我正
高效地将大型 Pandas 数据帧写入磁盘

我正在尝试找到使用 Python Pandas 高效地将大型数据帧 250MB 写入磁盘或从磁盘写入的最佳方法我已经尝试了所有方法Python 数据分析但表现却非常令人失望这是一个更大项目的一部分该项目探索将我们当前的分析数据管理
如何使用我自己的自定义表单覆盖 django-rest-auth 中的表单？

我正在使用 django rest auth 并尝试通过覆盖表单的方法之一来修复密码重置视图中的错误尽管我已经使用不同的 django rest auth 表单成功完成了类似的操作但我无法让它在这个表单上工作无论我做什么都会使用旧的
如何在seaborn热图标签中使用科学计数法？

我正在尝试在 python 中使用seaborn 获取热图不幸的是即使数字非常大它也没有使用科学记数法我想知道是否有任何简单的方法可以转换为科学记数法或任何其他合理的格式这是显示问题的一段代码 import seaborn as
如何在动态执行的代码字符串中使用inspect.getsource？

如果我在文件中有这段代码 import inspect def sample p1 print p1 return 1 print inspect getsource sample 当我运行脚本时它按预期工作在最后一行源代码sampl
烧瓶 - 404 未找到

我是烧瓶开发的新手这是我在烧瓶中的第一个程序但它向我显示了这个错误在服务器上找不到请求的 URL 如果您输入了网址请手动检查拼写并重试这是我的代码 from flask import Flask app Flask name ap
如何仅注释堆积条形图的一个类别

我有一个数据框示例如下所示 data Date 2021 07 18 2021 07 19 2021 07 20 2021 07 21 2021 07 22 2021 07 23 Invalid NaN 1 1 NaN NaN NaN N
如何将 Pyspark Dataframe 标题设置到另一行？

我有一个如下所示的数据框 col1 col2 col3 id name val 1 a01 X 2 a02 Y 我需要从中创建一个新的数据框使用 row 1 作为新的列标题并忽略或删除 col1 col2 等行新表应如下所示 id na
同一台机器上有多个Python版本？

Python 网站上是否有关于如何在 Linux 上的同一台计算机上安装和运行多个版本的 Python 的官方文档我可以找到无数的博客文章和答案但我想知道是否有标准官方方法可以做到这一点或者这一切都取决于操作系统我认为它是完全独
Python：“直接”调用方法是否实例化对象？

我是 Python 新手在对我的对象进行单元测试时我注意到一些奇怪的东西 class Ape object def init self print ooook def say self s print s def main Ape
使用 Windows 任务计划程序安排 [Virtualenv 相关] Python 脚本

I want to schedule a python script to start at 3AM and break at 5PM every weekday However the problem arises when I need
在 pygame 中，我如何创建一个数据结构来跟踪调整大小事件和对象的坐标？

我希望在调整屏幕大小后使鼠标事件与对象保持同步有人告诉我需要创建一个数据结构来跟踪调整事件大小新坐标以匹配调整大小如何使用简单的代数方程来完成此操作并将其集成到调整大小事件中以进行准确更新反过来做创建一个虚拟游戏地图在绘制场景
django 中的身份验证方法返回 None

你好我在 django 中做了一个简单的注册和登录页面当想要登录时登录视图中的身份验证方法不返回任何内容我的身份验证应用程序模型 py from django db import models from django contri
异步异常处理程序：在事件循环线程停止之前不会被调用

我正在我的异步事件循环上设置异常处理程序但是在事件循环线程停止之前它似乎不会被调用例如考虑以下代码 def exception handler loop context print Exception handler called
通过新数据更新绘图，而不是在 Jupyter 笔记本中制作新绘图

我有一些问题希望你能帮我解决我需要使用下拉小部件创建交互式绘图我可以在其中选择并绘制感兴趣的数据我通过以下方式做到这一点 import plotly graph objects as go import ipywidgets as
在 anaconda 环境下运行 qsub

我有一个程序通常在 Linux 的 conda 环境中运行因为我用它来管理我的库指令如下 source activate my environment python hello world py 我怎样才能跑你好世界 py在与 PBS
为什么我的 PyGame 应用程序根本不运行？

我有一个简单的 Pygame 程序 usr bin env python import pygame from pygame locals import pygame init win pygame display set mode 400
如何在 Qt 中以编程方式制作一条水平线

我想弄清楚如何在 Qt 中制作一条水平线这很容易在设计器中创建但我想以编程方式创建一个我已经做了一些谷歌搜索并查看了 ui 文件中的 xml 但无法弄清楚任何内容 ui 文件中的 xml 如下所示

随机推荐

查找特定元素之前和之后的元素

我有一个列表其中包含我与选项卡一起使用的链接它看起来像这样 ul li a href First tab a li li a href Second tab a li li class active a href Active tab
google/guava 库出现 Spark 错误：java.lang.NoSuchMethodError: com.google.common.cache.CacheBuilder.refreshAfterWrite

我有一个简单的spark项目其中在pom xml依赖只是基本的scala scalatest junit and spark
字符串中的前两个单词 - sql server

我有这样的字符串这是一个 hello world 示例现在我想要该句子的前两个单词作为 SQL Server 中的输出即这是另一个例子原句完整的单词练习输出完整的单词您可以按如下方式使用查询 DECLARE d nvarc
Boyer–Moore 字符串搜索算法的移位规则是什么？

我一直在尝试理解轮班规则Boyer Moore 字符串搜索算法但还没有理解他们我读到这里维基百科 http en wikipedia org wiki Boyer E2 80 93Moore string search algorithm
如何在 Eclipse 中使用 PHPdoc

我们目前正处于一个新项目的开始阶段希望这一次从一开始就尽可能多地发表评论以帮助未来的发展我试图找出在 Eclipse 中使用 phpDoc 的最佳实践但结果非常有限您能分享一下在 Eclipse 中使用 phpDoc 注释内容
无法将类“java.lang.String”的对象 jar 转换为类“java.util.Map”。从 grails 3.0.10 升级到 3.1.11 时

我正在将我的应用程序从 grails 3 0 10 升级到 3 1 11 当我运行grails clean命令在读取我的内容时显示以下错误 gradle文件夹依赖项错误初始化类路径时出错无法转换对象 file root gradle c
用户控件在面板上拖放

我正在制作一个图形编辑器但在拖放时遇到一些问题Panel 椭圆没有占据我放置它的确切位置我认为它被放置在大小为 150 150 的 UserControl 中这是一个短片的链接来说明我的意思 http gyazo com abf548
Android 会在更新时清理应用程序缓存吗？

In this document https developer android com training data storage files 谷歌表示当用户卸载您的应用时系统会删除您应用的所有内容内部存储中的文件但是当更新应用
R6 类的 S4 调度行为不一致

实际问题事实不应该是这样吗R6 https github com wch R6类继承自非正式 S3 类R6允许为该类的签名参数定义 S4 方法吗由于事实并非如此那么符合当前 S3 S4 标准或在这种情况下在某种程度上可以被视为最佳
jQuery：自动触发悬停

我对列表项有一个悬停鼠标输入鼠标悬停设置如下所示 main nav li a hover function el this leftPos el position left newWidth el parent width magicNa
使用 Apache POI 编辑 Word 文档 [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我正在尝试读取Word文档模板然后用用户给定的数据替换模板中的变量不更改模板上的标题或样式我不确定我正在做的事情是否正确但是这
使用 ASP.NET MVC 处理/接收从 WebRTC 或任何基于浏览器的捕获机制到服务器的实时视频网络摄像头流

我们需要从 WebRTC 或来自客户端网络摄像头的任何其他捕获机制即使并非所有浏览器都支持但作为 PoC 捕获实时视频流该实时视频需要由服务器组件 ASP Net MVC Web API 处理我想服务器上的代码将如下所示 HttpP
更新 Windows 服务

我有一个用 net VB net 2 0 编写的 exe 我使用 installutil exe 将其安装为服务我的问题是每次更新 exe 时是否都需要完全卸载该服务并重新安装我尝试停止服务并替换 exe 但它似乎没有反映所做的更改
准确测量一组基准点之间的相对距离（增强现实应用）

假设我有一组 5 个标记我正在尝试使用增强现实框架找到每个标记之间的相对距离例如AR工具包 http www hitl washington edu artoolkit 在我的相机中前 20 帧仅向我显示前 2 个标记以便我可以计算
Android + Facebook SDK：“由于应用程序名称不匹配，无法对应用程序进行身份验证。”

当尝试在我的 Android 应用程序上使用 Facebook SDK 时我收到此错误由于应用程序名称不匹配无法对应用程序进行身份验证请检查对话框中配置的应用程序名称在阅读了有关此主题的许多帖子后其他人也遇到了同样的问题并成功纠
ggplot2 - 添加 alpha 参数使 PDF 中的所有其他文本变暗/加粗

我注意到当我将 alpha 参数添加到几何图形时当输出为 PDF 时图表上的所有文本轴标题等都会变暗几乎就像它们变成粗体一样这似乎与实际的 alpha 值无关它使图表变得更难看特别是当每页有多个图表且有大量文本时还有其他
如何在存储库中实现 IDisposable 继承？

我正在创建一个通用存储库但不知道实现处置功能的正确方法是什么我没有使用 IoC DI 但我将来会重构我的代码来做到这一点所以 My code IUnitOfWork 接口 namespace MyApplication Data In
Eclipse 支持虚拟空白吗？

不久我将加入一家严重依赖 Eclipse 进行 Java 开发的公司对于我自己的开发我专门使用了其他工具因此我现在在开始合同之前熟悉了 Eclipse 我已经习惯的功能之一是虚拟空白这允许您单击给定文本区域中的任意位置并开始输入如
如何更改 VS Code 的合并冲突布局？

我使用 VS CODE 进行版本控制使用 git 每次遇到冲突时 VS CODE 都会向我展示一种布局我可以在一个窗口中看到所有更改然而在没有任何建议的情况下它变成了奇怪的三窗口设计我什么都看不懂有人知道我怎样才能回到第一个设
Python 元素树 - 从元素中提取文本，剥离标签

使用 Python 中的 ElementTree 如何从节点中提取所有文本剥离该元素中的任何标签并仅保留文本例如假设我有以下内容

Python 元素树 - 从元素中提取文本，剥离标签

Python 元素树 - 从元素中提取文本，剥离标签 的相关文章

随机推荐

热门标签

Python 元素树 - 从元素中提取文本，剥离标签的相关文章