Python lxml - 获取标签文本的索引

2024-01-10

我有一个格式类似于 docx 的 xml 文件，即：

<w:r>
  <w:rPr>
    <w:sz w:val="36"/>
    <w:szCs w:val="36"/>
  </w:rPr>
  <w:t>BIG_TEXT</w:t>
</w:r>

我需要获得一个索引BIG_TEXT在源 xml 中，例如：

from lxml import etree
text = open('/devel/tmp/doc2/word/document.xml', 'r').read()

root = etree.XML(text)

start = 0
for e in root.iter("*"):
    if e.text:
        offset = text.index(e.text, start)
        l = len(e.text)
        print 'Text "%s" at offset %s and len=%s' % (e.text, offset, l)
        start = offset + l

我可以从当前位置开始新的搜索index + len(text)，但是还有别的办法吗？元素可以有一个字符，w例如。它将找到索引w，但不是标签文本的索引w.

我一直在寻找类似的解决方案（在大 xml 文件中索引节点以进行快速查找）。

AFAIK, lxml只提供源代码，这是不够的。 CFAPI http://lxml.de/api/lxml.etree._Element-class.html : Original line number as found by the parser or None if unknown.
But expat provides the exact offset in the file : CurrentByteIndex http://docs.python.org/library/pyexpat.html#xml.parsers.expat.xmlparser.CurrentByteIndex.
- 取自start_element处理程序，它返回标签的开始（即'<'）抵消。
- 取自char_data处理程序，它返回数据的开始（即'B'在你的例子中）偏移。

例子：

import xml.parsers.expat

# handler functions for parser events, and housekeeping.
class handler :
   def __init__(self, current_parser) :
      #tag of interest
      self.TARGET_TAG = "w:t"

      #set up parser
      self.parser = current_parser
      self.parser.StartElementHandler  = self.start_element
      self.parser.EndElementHandler    = self.end_element
      self.parser.CharacterDataHandler = self.char_data

      self.target_tag_met = False
      self.index = None

   def start_element(self, name, attrs):
      self.target_tag_met = (name == self.TARGET_TAG)

   def end_element(self, name) :
      self.target_tag_met = False

   def char_data(self, data):
      if self.target_tag_met :
         self.index = self.parser.CurrentByteIndex

#open file in binary mode for robuster byte offsets.
xmlFile = open("so_test.xml", 'rb')

p = xml.parsers.expat.ParserCreate()
h = handler(p)

p.ParseFile(xmlFile)
print (h.index)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

xml

lxml

Python lxml - 获取标签文本的索引的相关文章

我怎样才能更多地了解Python的内部原理？ [关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案我使用Python编程已经有半年多了我对Python内部更感兴趣而不是使用Python开发应用程序
如何迭代按值排序的 Python 字典？

我有一本字典比如 a 6 b 1 c 2 我想迭代一下by value 不是通过键换句话说 b 1 c 2 a 6 最直接的方法是什么 sorted dictionary items key lambda x x 1 对于那些讨厌 la
将数据帧行转换为字典

我有像下面的示例数据这样的数据帧我正在尝试将数据帧中的一行转换为类似于下面所需输出的字典但是当我使用 to dict 时我得到了索引和列值有谁知道如何将行转换为像所需输出那样的字典任何提示都非常感激 Sample data pri
填充两个函数之间的区域

import matplotlib pyplot as plt import numpy as np def domain x np arange 0 10 0 001 f1 lambda x 2 x x 2 0 5 plt plot x
忽略 Mercurial hook 中的某些 Mercurial 命令

我有一个像这样的善变钩子 hooks pretxncommit myhook python path to file myhook 代码如下所示 def myhook ui repo kwargs do some stuff 但在我的例子中
为什么Python的curses中escape键有延迟？

In the Python curses module I have observed that there is a roughly 1 second delay between pressing the esc key and getc
以同步方式使用 FastAPI，如何获取 POST 请求的原始正文？

在中使用 FastAPIsync not async模式我希望能够接收 POST 请求的原始未更改的正文我能找到的所有例子都显示async代码当我以正常同步方式尝试时 request body 显示为协程对象当我通过发布一些内容来
在Python中调整图像大小

我有一张尺寸为 288 352 的图像我想将其大小调整为 160 240 我尝试了以下代码 im imread abc png img im resize 160 240 Image ANTIALIAS 但它给出了一个错误TypeErro
从 python 发起 SSH 隧道时出现问题

目标是在卫星服务器和集中式注册数据库之间建立 n 个 ssh 隧道我已经在我的服务器之间设置了公钥身份验证因此它们只需直接登录而无需密码提示怎么办我试过帕拉米科它看起来不错但仅仅建立一个基本的隧道就变得相当复杂尽管代码示例将受
使用鼻子获取设置中当前测试的名称

我目前正在使用鼻子编写一些功能测试我正在测试的库操作目录结构为了获得可重现的结果我存储了一个测试目录结构的模板并在执行测试之前创建该模板的副本我在测试中执行此操作 setup功能这确保了我在测试开始时始终具有明确定义的状态现在
如何从Python中的字符串中提取变量名称和值

我有一根绳子 data var1 id 12345 name John White python中有没有办法将var1提取为python变量更具体地说我对字典变量感兴趣这样我就可以获得变量的值 id和name python 这是由提供
如何使用列表作为pandas数据框中的值？

我有一个数据框需要列的子集包含具有多个值的条目下面是一个带有运行时列的数据框其中包含程序在各种条件下的运行时 df condition a runtimes 1 1 5 2 condition b runtimes 0 5 0 7
创建嵌套字典单行

您好我有三个列表我想使用一行创建一个三级嵌套字典 i e l1 a b l2 1 2 3 l3 d e 我想创建以下嵌套字典 nd a 1 d 0 e 0 2 d 0 e 0 3 d 0 e 0 b a 1 d 0 e 0 2 d 0
使用 Firefox 绕过弹出窗口下载文件：Selenium Python

我正在使用 selenium 和 python 来从中下载某些文件web page http www oceanenergyireland com testfacility corkharbour observations 我之前一直使用设
使用 NumPy 将非均匀数据从文件读取到数组中

假设我有一个如下所示的文本文件 33 346 1223 10 23 11 23 12 23 13 23 14 23 15 23 16 24 10 24 11 24 12 24 13 24 14 24 15 24 16 25 14 25 15
如何为每个屏幕添加自己的 .py 和 .kv 文件？

我想为每个屏幕都有一个单独的 py 和 kv 文件应通过 main py main kv 中的 ScreenManager 选择屏幕设计应从文件 screen X kv 加载类等应从文件 screen X py 加载 Screens
您可以将操作直接应用于map/reduce/filter 中的参数吗？

map and filter通常可以与列表理解互换但是reduce并不那么容易被交换map and filter 此外在某些情况下我仍然更喜欢函数语法但是当您需要对参数本身进行操作时我发现自己正在经历语法体操最终必须编写整个函数
限制 django 应用程序模型中的单个记录？

我想使用模型来保存 django 应用程序的系统设置因此我想限制该模型使其只能有一条记录极限怎么办尝试这个 class MyModel models Model onefield models CharField The fiel
从 Twitter API 2.0 获取 user.fields 时出现问题

我想从 Twitter API 2 0 端点加载推文并尝试获取标准字段作者文本和一些扩展字段尤其是用户字段端点和参数的定义工作没有错误在生成的 json 中我只找到标准字段但没有找到所需的 user fields 用户
迭代 pandas 数据框的最快方法？

如何运行数据框并仅返回满足特定条件的行必须在之前的行和列上测试此条件例如 1 2 3 4 1 1 1999 4 2 4 5 1 2 1999 5 2 3 3 1 3 1999 5 2 3 8 1 4 1999 6 4 2 6 1 5 1

随机推荐

Android 以编程方式关闭 Activity

活动中与离开屏幕等效的操作是什么就像当您按下后退按钮时活动就会消失如何从活动内部调用它以使其自行关闭关于Activity finish http developer android com reference android app
java.lang.NoClassDefFoundError：com.dropbox.sync.android.DbxAccountManager

请这不是重复的问题不知道但我已经将 jar 放入 libs 文件夹中并且还完成了以下过程 And also 我已经检查过这个我收到 java lang classnotfoundException com mysql jdbc Dri
可移植的比较和交换（原子操作）C/C++ 库？

是否有任何小型库可以将各种处理器的类似 CAS 的操作包装成可跨多个编译器移植的宏或函数 PS The 原子 hpp库 http www boost org doc libs 1 39 0 boost interprocess detai
MongooseError：Model.findOne() 不再接受 Function 的回调

我在设置 mongoose 时遇到了问题这是我的代码 const SlashCommandBuilder require discordjs builders const testSchema require Schemas js tes
Java 中的 Hbase CopyTable

我想将一个 Hbase 表复制到另一个具有良好性能的位置我想重用 CopyTable java 中的代码Hbase 服务器 github 页面 https github com apache hbase blob master hbase
Android 4.3 之前使用 SimpleDateFormat 的“ZZZZZ”(+03:00) 作为时区

我在用着SimpleDateFormat有格式yyyy MM dd T HH mm ssZZZZZ 预期输出为 2014 08 26T13 00 14 03 00 但是仅从 Android 4 3 开始支持 ZZZZZ 结果如下以上4
为使用 Electron 创建的应用程序签名 Windows 安装程序 (.exe)

我有一个使用构建的简单应用程序电子框架我使用以下方式打包了代码electron packager interactive 我还创建了一个Windows 安装程序文件可以使用 Inno Setup 编译器单个 exe 文件进行分发这里
Angular 2 中条件必需的验证器指令

我需要根据其他字段的值将某些表单字段设置为必需或不必需内置的必需的验证器 https angular io docs ts latest api common RequiredValidator directive html指令似乎不支持
C# SecureString 问题

有没有什么方法可以在不影响安全性的情况下获取 SecureString 的值例如在下面的代码中一旦执行 PtrToStringBSTR 字符串就不再安全因为字符串是不可变的并且垃圾收集对于字符串来说是不确定的 IntPtr ptr
Android Spinner 设置选择与 2 向绑定

当配置了 2 路数据绑定时我正在努力获取一些与 Android spinner 一起使用的功能我想通过 2 路数据绑定设置微调器的初始值android selectedItemPosition 微调器条目由 ViewModel 初始化并
在之前更改背景颜色后禁用时，JTextField 的背景颜色不会变为“灰色”

通常当你使用setEditable false or setEnabled false JTextField 的背景前景色变为灰色但是如果先前已使用设置背景颜色setBackground color 例如white 然后调用setE
所有 Redis 命令都是异步的吗？

我是 Redis 和 Node JS 的新手并且一直在尝试将两者一起使用然而我对可以一个接一个地使用哪些功能感到有点困惑随着数据库大小的增加以下代码似乎同步运行 client dbsize function err numKeys
如何检查 React-Native ES6 中是否安装了组件

我在我的应用程序中设置一个侦听器并在广播时使用强制更新但它给出错误 forceUpdate 无法在未安装的组件上调用现在如何检查组件是否已安装isMounted 函数已被弃用 use strict var React require
从 C++ 访问 Java 类的最佳方式？（比直接使用JNI更好）

我必须将一个大型 Java 库集成到一个相当大的 C 应用程序中解决方案是使用 JNI 但这需要手动编写所有类的代码例如 Python 有一个很棒的 JPype 解决方案 http jpype sourceforge net http
如何使用雷达获取某个地址的价值

如果我使用radare2 并且我运行可以说dr在调试时它会打印一些寄存器的指针让我们假装像esp正在解决0x04084308或类似的东西如果我想得到的值esp指的是我该怎么做提前致谢 print rsp寄存器值 0x560207
如何使用命令行将 SQL 查询导出到 TXT

我要出口select from table从 Linux 命令行将结果保存到文本文件我该怎么做谢谢让 look at link http www tech recipes com rx 1475 save mysql query re
C# 中从 1 到 N 的数字相加

我正在用 C 编写代码并尝试添加数字 1 和 N 之间的所有数字 N 是在文本框中输入的数字我正在这样做至少尝试通过将其放入 while 循环中来做到这一点我之前已经添加了两个文本框之间的所有数字但由于某种原因我快把自己逼疯了
如何将本地MySQL数据库部署到Heroku

我是 Heroku 的新手我有一个 Ruby Sinatra 应用程序我计划在其中使用 MySQL 数据库作为主要数据存储但是我不想将结果直接写入 Heroku 上的数据库相反我想将结果写入本地数据库然后能够轻松地将本地数据库
如何使 dataview.list 在 Sencha Touch 2 中可见？

这里是 Sencha Touch 新手也就是说在过去一天左右的时间里我一直在慢慢地思考这个问题让我发疯的一件事是表单面板和列表由于某些奇怪的布局原因而没有显示我不明白为什么例如我有以下搜索视图 Ext define NC vi
Python lxml - 获取标签文本的索引

我有一个格式类似于 docx 的 xml 文件即

Python lxml - 获取标签文本的索引

Python lxml - 获取标签文本的索引 的相关文章

随机推荐

热门标签

Python lxml - 获取标签文本的索引的相关文章