在Python中根据标签将一个大的xml文件分割成多个

2024-01-03

我有一个非常大的 xml 文件，我需要根据特定标签将其拆分为多个文件。 XML 文件是这样的：

<xml>
<file id="13">
  <head>
    <talkid>2458</talkid>
    <transcription>
      <seekvideo id="645">So in college,</seekvideo>
      ...
    </transcription>
  </head>
  <content> *** This is the content I am trying to save *** </content>
</file>
<file>
      ... 
</file>
</xml>

我想提取content每个file并根据talkid.

这是我尝试过的代码：

import xml.etree.ElementTree as ET

all_talks = 'path\\to\\big\\file'

context = ET.iterparse(all_talks, events=('end', ))
for event, elem in context:
    if elem.tag == 'file':
        content = elem.find('content').text
        title = elem.find('talkid').text
        filename = format(title + ".txt")
        with open(filename, 'wb', encoding='utf-8') as f:
            f.write(ET.tostring(content), encoding='utf-8')

但我收到以下错误：

AttributeError: 'NoneType' object has no attribute 'text'

如果您已经在使用.iterparse()仅依赖事件更为通用：

import xml.etree.ElementTree as ET
from pathlib import Path

all_talks = Path(r'file.xml')
context = ET.iterparse(all_talks, events=('start', 'end'))

for event, element in context:
    if event == 'end':
        if element.tag == 'talkid':
            title = element.text
        elif element.tag == 'content':
            content = element.text
        elif element.tag == 'file' and title and content:
            with open(all_talks.with_name(title + '.txt'), 'w') as f:
                f.write(content)
    elif element.tag == 'file':
        content = title = None

Upd. In 类似的问题 https://stackoverflow.com/q/74182062/10824407 @Leila https://stackoverflow.com/users/11926527/leila问如何写所有的文字<seekvideo>标记到文件而不是<content>文件，所以这是一个解决方案：

import xml.etree.ElementTree as ET
from pathlib import Path

all_talks = Path(r'file.xml')
context = ET.iterparse(all_talks, events=('start', 'end'))

for event, element in context:
    if event == 'end':
        if element.tag == 'file' and title and parts:
            with open(all_talks.with_name(title + '.txt'), 'w') as f:
                f.write('\n'.join(parts))
        elif element.text:
            if element.tag == 'talkid':
                title = element.text
            elif element.tag == 'seekvideo':
                parts.append(element.text)
    elif element.tag == 'file':
        title = None
        parts = []

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

xml

在Python中根据标签将一个大的xml文件分割成多个的相关文章

重新索引错误没有意义

I have DataFrames大小在 100k 到 2m 之间我正在处理这个问题的框架是如此之大但请注意我必须对其他框架执行相同的操作 gt gt gt len data 357451 现在这个文件是通过编译许多文件创建的所以它
如何为 Intellij/PyCharm 设置 PYTHONSTARTUP 脚本

我尝试添加PYTHONSTARTUP环境变量我还尝试了自定义启动脚本但更令人惊讶的是这also没有工作 npa别名无法识别出于一点绝望我什至尝试添加到interpreter options 那什么也没做实际上是什么Interpr
scipy.misc.imshow RuntimeError('无法执行图像视图')

我正在测试scipy misc imshow https docs scipy org doc scipy 0 15 1 reference generated scipy misc imshow html我得到了运行时错误无法执行图像查
Python sqlite3参数化删除表

我在 python 中删除 sqlite3 表时遇到问题我正在使用标准sqlite3模块 self conn sqlite3 connect sql drop table self conn execute sql u table nam
小数缓存是Python规范中定义的还是一个实现细节？

Python 似乎有一个所谓的小数字缓存用于存储 5 到 256 范围内的数字我们可以使用以下程序来演示这一点 for i in range 7 258 if id i id i 0 print i is cached else pr
jQuery 自动完成 - xml 跨站点请求

我的自动完成功能的 XML 提要位于另一台服务器上是否有客户端 javascript 方法来获取此 XML 文档我知道我可以使用 php jsp 等创建代理但我需要在所有客户端完成此操作这就是我现在调用该文件的方式该文件仅在同一域
如何使用 xlrd 将新列和行添加到 .xls 文件

如何向 xlrd 中的工作表添加新列和或行我有一个使用 open workbook 读取的 xls 文件我需要在第一张表中添加一个新列 bouncebacks 然后在该表中添加新行但我在 xlrd 文档中找不到任何显示如何添加新行和
用于检查项目文件中的项目变量和引用路径的 api

我正在研究一个 net application VS2010 与 x 没有解和变量号这些解决方案中的项目数量我需要检查项目属性特定于一定数量的项目是否同质并且检查验证构建期间的参考路径有没有一个API是这样的吗如果没有我该
如何删除 pandas 数据框中的唯一行？

我遇到了一个看似简单的问题在 pandas 数据框中删除唯一的行基本上相反drop duplicates https pandas pydata org pandas docs stable generated pandas Data
如何将空字符串编组到单个标签

我有我的对象配置了代码 object setName 编组为以下 XML
使用 XML 文档部署 Web API 项目时，构建服务器上“访问被拒绝”

为了使用 Web API 帮助页面为我的 Web API 项目生成 XML 文档我必须检查项目属性的构建部分下的 XML 文档文件选项当我在本地构建时这会正确生成文档但是当我签入时我在构建服务器上收到以下错误 CSC 生成
如何在数据框中绘制包含三列的无向图，形成 3 种不同类型的节点（三方）？

我正在尝试使用三个不同的列表绘制网络的可视化这三个列表形成 3 种类型的节点下面的代码正在运行如图所示需要两个列表用户 ID 评分但是我希望我的图表是三部分的即 user userId review ratings prod
PyCharm - 如何挂起所有线程

我们使用 PyCharm 5 0 1 进行多线程调试当它在断点处停止时只有特定线程停止而所有其他线程继续这使得冻结时刻和检查参数值以及其他线程的当前状态变得困难当其中一个线程在断点处停止时是否可以挂起所有线程这在最新的 P
如何修改 contenteditable 元素的innerHTML

我使用 Selenium 与 Chrome driver 和 python3 6 来测试网站我在网页中有代码片段如下 div class 3F6QL 2WovP div class 39LWd Type a message div div
如何加速 pandas 字符串函数？

我正在使用 pandas 矢量化 str split 方法来提取从上的拆分返回的第一个元素我还尝试使用 df apply 与 lambda 和 str split 来产生等效的结果使用 timeit 时我发现 df apply 的
使用 statsmodels.formula.api 中的 ols - 如何删除常数项？

我正在遵循第一个例子statsmodels教程 http statsmodels sourceforge net devel http statsmodels sourceforge net devel 如何指定在 ols 中不使用常数项进
Scrapy 抓取并跟踪 href 中的链接

我对 scrapy 很陌生我需要从 url 的主页跟踪 href 到多个深度再次在 href 链接内我有多个 href 我需要遵循这些href 直到到达我想要抓取的页面我的页面的示例 html 是初始页 div class page
如何保持 python 3 脚本 (Bot) 运行

不是母语英语抱歉英语可能很蹩脚我也是编程新手您好我正在尝试使用 QueryServer 连接到 TeamSpeak 服务器来创建机器人经过几天的努力它有效只有 1 个问题而我却被这个问题困扰了如果您需要检查这是我正在使
Matplotlib 中的 TwoSlopeNorm 未按预期工作

我正在尝试创建一个具有发散颜色图的绘图该颜色图在零附近不对称 In this https stackoverflow com a 20146989 6288682例如 DivergingNorm函数被使用并产生我想要的然而我使用的是更
在Python中从CSV文件中获取随机行并找到相应的单词，就像测验一样

抱歉标题含糊不清想不出更好的表达方式我有一个包含德语英语单词的 CSV 文件如下所示 Ja Yes Nein No Katze Cat 我希望我的 python 脚本从 CSV 文件中打印一个随机的德语单词并要求他们输入英语单词

随机推荐

通过 Cisco VPN 更新存储库时，Subversion 报告“格式错误的网络数据”

我正在使用 Cisco VPN 在 Windows 7 Ultimate 64 位上连接到我的公司网络当我检查 svn 存储库时下载一些文件后 2 或 3 秒我不断收到此错误该问题发生在 TortoiseSVN 1 5 9 和 Sl
在 Visual Studio 中使用命令行参数进行调试

我正在 Visual Studio 中开发 C 命令行应用程序需要使用命令行参数对其进行调试目前我只是使用我需要的参数运行生成的 EXE 文件像这样program exe file txt 但这样我就无法调试有没有地方可以指定调试参
SQL 选择最大 BY 组

WEEK STUDENT CLASS TEST SCORE 1 1 A 1 93 1 1 A 2 97 1 1 B 1 72 1 1 B 2 68 1 1 C 1 93 1 1 C 2 51 1 1 H 1 19 1 2 A 1 88 1
根据分组属性添加新列

我想在 R 中添加一个新列将我的子组总结为组这是我的例子 id c 1 2 2 3 4 4 4 5 5 5 6 6 6 subgroup c lightred lightblue darkblue lightred darkred da
检测处理器的数量

如何检测 net 中物理处理器核心的数量 System Environment ProcessorCount 返回逻辑处理器的数量 http msdn microsoft com en us library system environm
Linux内核中slab内存管理的缓存着色

我最近读到有关slab系统的缓存着色的内容但不明白为什么为不同slab中的对象添加不同偏移量的缓存着色可以提高性能我最初的猜测是具有缓存偏移量的slab分配器尝试将slab的第一个对象放在不同缓存颜色的内存中如果客户端从这些sl
如何覆盖已经有 !important 的 CSS 背景？

我试图用时尚覆盖网站的背景但它不起作用网站的背景 css 也有一个 important 并且它是压倒性的我的代码 body background image none important background black import
有没有办法在 grpc 服务器端设置超时？

无法从服务器端使 grpc 连接超时客户端可能建立连接但保持保持睡眠状态从而导致 grpc 服务器连接挂起服务器端有没有办法在一定时间后断开连接或设置超时我们尝试从客户端断开连接但无法从服务器端执行此操作在这个链接中gRPC
如何强制命令行使用 PHP 版本？

我由 1and1 com 托管并且我已将我的文件设置为使用 php5 进行解析 htaccess 但这仅适用于 apache 而不适用于命令行命令行默认为服务器默认 php4 所以目前我无法设置计划任务以 php5 运行我的代码有任何
.htaccess - 递归地将斜杠映射到下划线

G day 正如标题所示我正在尝试将网址格式设置为 this is mah page strucutre到文件this is mah page structure php 现在我已经可以工作了只是我不知道结构的深度因此我需要进行一些
Julia 中 @sync @async 的并行性

我有一些繁重的 csv 表我想与 sync sync 宏并行导入对此不太熟悉我尝试了以下方法 import files sync async begin df1 CSV File libname df1 csv gt DataFram
Javascript 中基于区域设置的排序，以预定义的方式对重音字母和其他变体进行排序

在芬兰语中我们排序W after V 如英语但是因为W不是芬兰本土字母它被认为是一个变体V 它被排序为等于V 但在两个词之间唯一的区别是V is W then V 版本首先排序一个例子说明了正确的顺序 Vatanen Watanen
OWIN创业班

有人可以告诉我 OWIN 启动类的确切作用吗基本上我正在寻找什么它的目的是什么何时调用仅调用一次或每次请求这是配置我的依赖注入库的好地方吗 Owin 被设计为可插拔设计您可以从配置中更改替换一组服务例如在以下配置中我有启
如何在iPhone的phonegap应用程序中的javascript中读取sqlite3的数据

我正在 iPhone 的phonegap 中开发一个应用程序其中我有一个sqlite3 数据库其中包含纬度和经度值以及相应的区域名称我已在应用程序中复制了 sqlite 数据文件我需要从sqlite中获取数据并将表中的数据显示在视图
重载运算符<<以接受模板函数

我试图能够使用函数编写可扩展语法但似乎找不到接受模板函数的正确语法我使用的是 Visual C 2008 它将接受与模板函数相同类型的变量或类似的非模板函数但不接受模板函数本身错误 1 错误 C2679 二进制 class Gram
所有运行的单元测试都以代码 0 (0x0) 退出，甚至没有命中断点

我正在运行 Visual Studio 2017 15 9 程序已成功构建但每次我右键单击调试测试时编译器都会退出并显示以下消息程序 xxxxx testhost x86 exe 已退出代码为 0 0x0 调试输出屏幕和测试输出
使用不连续索引进行 pyomo 优化

我正在使用 pyomo 在 python 中进行优化我计划使用 t start t end 范围内的索引现在这些 t start 和 t end 值是 EV 的函数使得 m pyo ConcreteModel m EV pyo Ra
AMQP/RabbitMQ - 顺序处理消息

我有一个direct交换还有一个队列与该交换器绑定该队列有两个消费者消费者完成相应的处理后将手动确认消息消息按逻辑顺序排序并且应按该顺序进行处理是否可以强制要求消费者 A 和消费者 B 按顺序接收和处理所有消息换句话说阻
WIX 中的指南语法？

为 WIX 的 wxs 文件中的组件提供 guid 的正确语法是什么在我发现的大多数样本中 Guid 00AD2D6E BF8A 4EA8 BE9A 57380DECD0E6 但在一些样本中我发现 Guid 00AD2D6E BF8A 4
在Python中根据标签将一个大的xml文件分割成多个

我有一个非常大的 xml 文件我需要根据特定标签将其拆分为多个文件 XML 文件是这样的

在Python中根据标签将一个大的xml文件分割成多个

在Python中根据标签将一个大的xml文件分割成多个 的相关文章

随机推荐

热门标签

在Python中根据标签将一个大的xml文件分割成多个的相关文章