在lxml中查找元素结束标记的行号

2024-01-13

在使用 lxml 解析 XML 文档时，我想找到特定标记的起始行号和结束行号。我可以使用以下命令找到起始标签的位置sourceline属性于lxml.etree.Element，但是我很难找到结束标签的行号。

我的尝试的一个简单例子：

import lxml.etree as ET

xml_sample = b'''<?xml version="1.0" encoding="utf-8"?>
<collection>
    <item>
        <value>foo</value>
    </item>
    <item>
        <value>
            bar
        </value>
    </item>
</collection>'''

for el in ET.fromstring(xml_sample).getroottree().findall('//value'):
    print('Found value "{el.text}" starting on line {el.sourceline} '
          'and ending on line ???.'.format(el=el))

是否可以获得结束标记行号value上面例子中的元素？

With xml.etree.ElementTree.tostring() trick:

...
root = ET.fromstring(xml_sample)
for el in root.findall('.//value'):
    endline_num = el.sourceline + (len(ET.tostring(el).strip().split()) - 1)
    print('Found value "{el.text}" starting on line {el.sourceline} '
          'and ending on line {end_num}.'.format(el=el, end_num=endline_num))

输出：

Found value "foo" starting on line 4 and ending on line 4.
Found value "
            bar
        " starting on line 7 and ending on line 9.

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

lxml

在lxml中查找元素结束标记的行号的相关文章

将tensorflow 2.0 BatchDataset转换为numpy数组

我有这个代码 train images test images tf keras datasets mnist load data train dataset tf data Dataset from tensor slices train
没有任何元数据的 zip 文件

我想找到一种简单的方法来压缩一堆文件而无需任何文件元数据例如时间戳这zip命令似乎总是保留元数据我没有找到禁用元数据的方法我希望解决方案是一个命令或最多一个 python 脚本谢谢正如一些帖子已经指出的那样 zip 标头中的大
在 Python 中使用 Selenium 处理“接受 Cookie”弹出窗口

我一直在尝试用硒抓取这个房地产网站的一些信息但是当我访问该网站时我需要接受 cookie 才能继续这仅在机器人访问网站时发生而不是在我手动执行时发生当我尝试通过 xpath 或 id 查找相应的元素时正如我在手动检查页面时找到
为什么 .setGeometry() 不改变 QWidget 实例的大小？

我想使用 QWidget 更改 QPushButton 的大小 setGeometry https doc qt io qtforpython 5 PySide2 QtWidgets QWidget html PySide2 QtWidge
on_delete=models.PROTECT 和 on_delete=models.CASCADE 在 Django 模型上有什么作用？

我对 Django 很熟悉但最近注意到有一个on delete models CASCADE and on delete models PROTECT模型的选项 on delete models CASCADE and on delete
如何确定非阻塞套接字是否真正连接？

这个问题不仅限于Python 这是一个一般的套接字问题我有一个非阻塞套接字想要连接到一台可访问的机器在另一端该端口不存在为什么 select 仍然成功我预计会超时 sock send 因管道损坏而失败 select 之后如何确定
即使使用 .loc[row_indexer,col_indexer] = value 时也会设置 WithCopyWarning

这是我的代码中得到的行之一SettingWithCopyWarning value1 Total Population value1 Total Population replace to replace value 4 然后我将其更改为
如何使用Python将WebP图像转换为Gif？

我已经尝试过这个 from PIL import Image im Image open this webp im save that gif gif save all True 这给了我这个错误类型错误不支持的操作数类型 tuple
优化 Keras 以使用所有可用的 CPU 资源

好吧我真的不知道我在说什么所以请耐心听我说我正在使用 Theano 后端运行 Keras 以在 MNIST 图像上运行基本的神经网络目前只是一个教程过去我一直使用我的旧 HP 笔记本电脑因为我有 Windows 和 Ubunt
Paramiko - 使用私钥连接 - 不是有效的 OPENSSH 私钥/公钥文件

我正在尝试找到解决方案但无法理解我做错了什么在我的 Linux 服务器上我运行了以下命令 ssh keygen t rsa 这产生了一个id rsa and id rsa pub file 然后我将它们复制到本地并尝试运行以下代码 s
PIL Image.size 返回相反的宽度/高度

使用PIL确定图像的宽度和高度在特定图像上幸运的是只有这一个但这很麻烦从 image size 返回的宽度高度是相反的图片 http storage googleapis com cookila 533ebf752b9d1f7c
错误：permission_manager_qt.cpp(82) 不支持的权限类型：13

我正在开发具有内置浏览器功能的 python 代码 PyQt 5 13 import sys from PyQt5 QtCore import from PyQt5 QtGui import from PyQt5 QtWidgets imp
sudo pip install python-Levenshtein 失败，错误代码 1

我正在尝试在 Linux 上安装 python Levenshtein 库但每当我尝试通过以下方式安装它时 sudo pip install python Levenshtein 我收到此错误命令 usr bin python c 导入
matplotlib matshow 标签

我一个月前开始使用 matplotlib 所以我仍在学习我正在尝试用 matshow 制作热图我的代码如下 data numpy array a reshape 4 4 cax ax matshow data interpolation
无法截取宽度为 0 的屏幕截图

我正在尝试截取 Bootstrap 模态内元素的屏幕截图经过一番努力我终于想出了这段代码 driver get https enlinea sunedu gob pe driver find element by xpath div c
如何有效地从 loadmat 函数生成的嵌套 numpy 数组中提取值？

python中是否有更有效的方法从嵌套的python列表中提取数据例如A array array 12000000 dtype object 我一直在使用A 0 0 0 0 当你有很多像 A 这样的数据时这似乎不是一个有效的方法我也用
为什么实现 __iter__ 的对象不被识别为可迭代的？

假设您使用包装对象 class IterOrNotIter def init self self f open tmp toto txt def getattr self item try return self getattribute
Python - 如何查询定义方法的类？

我的问题有点类似于this one https stackoverflow com questions 5520580 how do you get all classes defined in a module but not impor
在 Python 模块中使用 InstaLoader

我正在尝试使用 Instaloader 下载与主题标签相关的照片以进行图像分析我在GitHub存储库中找到了一个全面的方法如何在终端中执行它但是我需要将脚本集成到Python笔记本中这是脚本 instaloader no vide
来自 django 教程 was_published_recently.admin_order_field = 'pub_date'

From Django 教程 https www jetbrains com help pycharm 2017 1 creating and running your first django project html d28041e21

随机推荐

如何对 DefaultAzureCredential 方法进行单元测试

我使用默认的 azure 凭据方法获取访问令牌同时使用函数应用程序的托管标识获取访问令牌我能够获取令牌但现在我不确定如何对该方法进行单元测试这是当前状态 private async Task RefreshTokenCache va
如何在 SQL Server 2005 中查找谁锁定了谁

我正在研究 SQL Server 2005 SP3 从活动监视器中我注意到许多处理器被锁定在挂起模式你知道如何找到谁锁定了我的进程吗 exec sp who 会告诉您哪些进程被哪些其他进程阻止您还可以使用 exec sp lock 查
Capybara::ElementNotFound：无法找到文件字段“文件”

我正在测试文件上传即 CSV 在我的代码和浏览器 HTML 中我找到了文件字段但在测试时水豚无法找到该文件字段我努力尝试不同的方法但无法解决问题这里部分看起来像这样 add file box div msg h1 page h
Android OpenGL ES - 我无法使 gluLookAt/gluPerspective 工作

以下文字有点长因为我想确保有类似问题的人例如谷歌这个页面可以轻松地跟踪确切的问题及其解决方案但现在谈谈我的问题我最近开始在 Android 智能手机上进行 OpenGL ES 编程并在理解如何使用 gluPerspective 和
如何在 Mac OS X 10.5.8 上安装 Bash >= 3.2.25？

我正在关注 Michael Hartl 的 Rails 教程到目前为止我已经安装了 Git 1 7 5 4 x86 64 我正在运行 OSX 10 5 8 并且我正在尝试安装 rvm 我运行以下命令后 curl kL get rvm io
正则表达式：以任意顺序匹配特定字符，每个字符的出现次数不超过指定的次数

我有一个字符列表例如 o b c c d o f 如果字符串包含不在该列表中的字符我不希望它成为匹配项如果一个字符串包含的某个字符出现的次数多于该列表中该字符出现的次数我不希望它成为匹配项字符串中的字符可以按任何顺序出现并且不必
Django：“datetime”类型的对象不可 JSON 序列化

我正在尝试在我的会话中保存一个日期我总是收到错误Object of type datetime is not JSON serializable 我找到了这个here https docs djangoproject com en 2 1
在第一个jsp程序上使用eclipse设置tomcat

我只是按照春季教程进行操作 http static springsource org docs Spring MVC step by step part1 html http static springsource org docs Spr
C++ 中的原子性：神话还是现实 [重复]

这个问题在这里已经有答案了我读过一篇关于无锁编程 http msdn microsoft com en us library ee418650 28v vs 85 29 aspx在 MSDN 中它说在所有现代处理器上您可以假设读取
如何在聊天中向所有人发出实时“用户正在输入”通知[关闭]

很难说出这里问的是什么这个问题是含糊的模糊的不完整的过于宽泛的或修辞性的无法以目前的形式得到合理的回答如需帮助澄清此问题以便重新打开访问帮助中心 help reopen questions 我想使用 jQuery 和 PHP
从设施列表中获取子数据

我正在尝试编写一个查询如果可能的话希望获得一些帮助提前致谢我有一个从公共来源获取的设施数据表约 10 万行该数据包含几条我认为是同一地点相同名称城市州的记录它们只是有不同的套房号另一个有趣的代码是我有一个关于数据的选
在 Django 中复制模型实例及其相关对象/递归复制对象的算法

我有模型Books Chapters and Pages 它们都是由一个User from django db import models class Book models Model author models ForeignKey a
当我部署到 Google App Engine 时，我的反应前端没有改变

我的 App yaml 配置文件是 runtime nodejs12 handlers Serve all static files with url ending with a file extension url static file
如何处理 Git“无法读取”错误

我在 git 存储库中收到此错误 22 09 15 git status On branch master error Could not read 8124cc15c63be92d534e4cdfa33c38d54deee122 erro
通过原型定义方法与在构造函数中使用它 - 真的有性能差异吗？

在 JavaScript 中我们有两种创建类并为其提供公共函数的方法方法一 function MyClass var privateInstanceVariable foo this myFunc function alert pr
通过 Docker 在 Windows 主机上执行 npm 安装

我正在尝试通过 docker toolbox 在 Windows 主机上为开发环境创建 docker 开发工具容器但在运行 npm install 命令时遇到一些问题它在 Linux 主机上工作正常但在 Windows 主机上我收到以
暂时阻止两个 QObject 之间的信号

我想一般性地暂时阻止两个之间的信号QObjects不修改其他信号槽的行为也不知道它们的上下文就像是QObject blockSignals 布尔 http qt project org doc qt 4 8 qobject html
如何在 Selenium 2 API 中处理鼠标悬停

String strPrimaryNav MEN String strSecondaryNav Shoes String strTertiaryNav Golf driver findElement By linkText strPrima
如何使用 BouncyCastle 执行 TLS？

有人知道 BouncyCastle 的 TLS 示例吗我对互联网上缺少它们感到惊讶如果确实没有我们就收集起来作为答案这是一个非常基本的示例具有仅服务器身份验证和自签名证书代码基于 BC 1 49 主要是轻量级 API Serve
在lxml中查找元素结束标记的行号

在使用 lxml 解析 XML 文档时我想找到特定标记的起始行号和结束行号我可以使用以下命令找到起始标签的位置sourceline属性于lxml etree Element 但是我很难找到结束标签的行号我的尝试的一个简单例子 impo

在lxml中查找元素结束标记的行号

在lxml中查找元素结束标记的行号 的相关文章

随机推荐

热门标签

在lxml中查找元素结束标记的行号的相关文章