使用 ElementTree 读取 .xml 等电子表格

2024-02-07

我正在使用 ElementTree 读取 xml 文件，但有一个单元格无法读取其数据。

我调整了我的文件以制作一个可重现的示例，如下所示：

from xml.etree import ElementTree
import io

xmlf = """<?xml version="1.0"?>
<?mso-application progid="Excel.Sheet"?>
<Workbook ss:ResourcesPackageName="" ss:ResourcesPackageVersion="" xmlns="urn:schemas-microsoft-com:office:spreadsheet"
 xmlns:ss="urn:schemas-microsoft-com:office:spreadsheet"
 xmlns:html="http://www.w3.org/TR/REC-html40">
  <Worksheet ss:Name="DigitalOutput" ss:IsDeviceType="true">
     <Row ss:AutoFitHeight="0">
    <Cell><Data ss:Type="String">A</Data><NamedCell ss:Name="_FilterDatabase"/></Cell>
    <Cell><Data ss:Type="String">B</Data><NamedCell ss:Name="_FilterDatabase"/></Cell>
    <Cell><Data ss:Type="String">C</Data><NamedCell ss:Name="_FilterDatabase"/></Cell>
    <Cell ss:Index="7"><ss:Data ss:Type="String"
      xmlns="http://www.w3.org/TR/REC-html40"><Font html:Color="#000000">CAN'T READ </Font><Font>THIS</Font></ss:Data><NamedCell
      ss:Name="_FilterDatabase"/></Cell>
    <Cell ss:Index="10"><Data ss:Type="String">D</Data><NamedCell
      ss:Name="_FilterDatabase"/></Cell>
   </Row>
   </Worksheet>
 </Workbook>"""

ss = "urn:schemas-microsoft-com:office:spreadsheet"
worksheet_label = '{%s}Worksheet' % ss
row_label = '{%s}Row' % ss
cell_label = '{%s}Cell' % ss
data_label = '{%s}Data' % ss

tree = ElementTree.parse(io.StringIO(xmlf))
root = tree.getroot()

for ws in root.findall(worksheet_label):
    for table in ws.findall(row_label):
        for c in table.findall(cell_label):
            data = c.find(data_label)
            print(data.text)

输出是：

A
B
C
None
D

因此，第四个单元格未被读取。你能帮我解决这个问题吗？

Question：使用 ElementTree 读取 .xml 等电子表格

文档：lxml.etree 教程 - 命名空间 https://lxml.de/tutorial.html#namespaces

定义namespaces used

ns = {'ss':"urn:schemas-microsoft-com:office:spreadsheet",
      'html':"http://www.w3.org/TR/REC-html40"
     }

Use the namespaces with find(.../findall(...

tree = ElementTree.parse(io.StringIO(xmlf))
root = tree.getroot()

for ws in root.findall('ss:Worksheet', ns):
    for table in ws.findall('ss:Row', ns):
        for c in table.findall('ss:Cell', ns):
            data = c.find('ss:Data', ns)
            if data.text is None:
                text = []
                data = data.findall('html:Font', ns)
                for element in data:
                    text.append(element.text)

                data_text = ''.join(text)
                print(data_text)
            else:
                print(data.text)

Output:

A
B
C
CAN'T READ THIS
D

使用 Python 测试：3.5

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

xml

xmlnamespaces

elementtree

使用 ElementTree 读取 .xml 等电子表格的相关文章

Urllib 的 urlopen 在某些网站上被破坏（例如 StackApps api）：返回垃圾结果

我在用着urllib2 s urlopen函数尝试从 StackOverflow api 获取 JSON 结果我正在使用的代码 gt gt gt import urllib2 gt gt gt conn urllib2 urlopen h
如何使用 Julia 查找矩阵中的连通分量

假设我有以下矩阵此处用 Julia 语言定义 mat 1 1 0 0 0 1 1 0 0 0 0 0 0 0 1 0 0 0 1 1 将一组值为 1 的相邻元素视为一个分量如何识别该矩阵有 2 个分量以及每个分量由哪些顶点组成对于矩
将 3d NumPy 数组重塑为 2d NumPy 数组时遇到问题

我正在研究图像处理问题我的数据以 3 维 NumPy 数组的形式呈现其中 x y z 条目是图像 z 的 x y 像素数值强度值有 100000 张图像每张图像为 25x25 因此数据矩阵的大小为 25x25x10000 我试图
有没有办法在 Altair 箱线图中格式化工具提示值

是否可以格式化箱线图工具提示中的值由此织女星文档 https vega github io vega lite docs boxplot html tooltip encoding channels 看起来是这样但我不太清楚如何使用 A
使用 scikit-learn 在朴素贝叶斯分类器中混合类别数据和连续数据

我正在使用 Python 中的 scikit learn 开发分类算法来预测某些客户的性别除此之外我想使用朴素贝叶斯分类器但我的问题是我混合了分类数据例如在线注册接受电子邮件通知等和连续数据例如年龄长度会员资格等
Python：当为变量分配新内容时，“旧”内存是否被释放？

如果为变量分配了任何新内容为旧内容分配的内存是否会正确释放例如在以下脚本中在为 a 分配一些新内容后变量 a 作为零数组的内存是否会被释放 import numpy a numpy zeros 1000 a a 1 我想象
安装 Ta-lib 会产生 gcc 错误

当我尝试在我的 mac 上将 Ta lib 作为全局包安装时出现 gcc 错误我收到以下错误 gcc Wno unused result Wsign compare Wunreachable code DNDEBUG g fwrapv
Netmiko OSError：在 send_command 中从未检测到搜索模式：

我被这个错误困住了任何人都可以帮助摆脱这个错误 import netmiko Device host xxxxxxxxxx device type cisco nxos username admin password xxxxxxxx c
将函数应用于 3D numpy 数组

我有一个来自 Image PIL Pillow 对象的 numpy 3D 数组 178 214 235 180 215 236 180 215 235 146 173 194 145 172 193 146 173 194 126 171
Keras 中的条件批量归一化

我正在尝试在 Keras 中实现条件批量标准化我假设我必须创建一个自定义层因此我从正常化 https github com keras team keras blob master keras layers normalization
群组名称不能以数字开头？

看来我不能使用像这样的正则表达式 P lt 74xxx gt 0 9 重新打包会引发错误 sre constants error bad character in group name u 74xxx 我似乎无法使用以数字开头的组名称为什
使用 Pytest 捕获 SystemExit 消息

我正在使用 pytest 编写测试我遇到了一些函数抛出异常的情况SystemExit如果输入错误终端上会显示一些错误消息我想为以下情况编写测试SystemExit抛出并验证输出错误消息中是否有特定字符串这是代码 def test v
argparse add_argument 别名

有没有办法使用 argparse 创建别名例如我想做这样的事情 parser add argument foo parser add argument alias bar foo 也就是说使用 bar应该相当于使用 foo 您可以简单
python中终止进程的跨平台方法

当我尝试使用 subprocess Popen terminate 或 Kill 命令终止 Windows 中的进程时出现访问被拒绝错误如果文件不再存在我真的需要一种跨平台的方式来终止进程是的我知道这不是做我正在做的事情的最优雅的
从 Java 调用 Python 代码时出现问题（不使用 jython）

我发现这是从 java 运行使用 exec 方法 python 脚本的方法之一我在 python 文件中有一个简单的打印语句但是我的程序在运行时什么也没做它既不打印Python文件中编写的语句也不抛出异常程序什么都不做就终止了
Pandas 对 HDFStore 中的大数据进行“分组”查询？

我有大约 700 万行HDFStore有60多个柱子数据超出了我的记忆能力我希望根据 A 列的值将数据聚合到组中 pandas 的文档分割聚合组合 http pandas pydata org pandas docs stable
Python、Oracle DB、列中的 XML 数据，获取 cx_Oracle.Object

我正在使用 python 从 Oracle DB 获取数据所有行都有一个包含 XML 数据的列当我使用 python 打印从 Oracle DB 获取的数据时包含 XML 数据的列将打印为 0x7fffe373b960 处的 cx O
在 kivy 中嵌套小部件

我正在尝试在 kivy 中制作一个界面我认为即使在完成教程之后我仍然不了解自定义小部件以及如何对它们进行层次结构的一些基本知识我认为我有更多的盒模型 html 思维方式因此小部件嵌套在本机 GUI 中的方式对我来说仍然有点陌生一些
使用自定义层运行 Keras 模型时出现问题

我目前正在攻读学士学位论文FIIT STU https www fiit stuba sk en html page id 749 其主要目标是尝试复制和验证以下结果study http arxiv org abs 2006 00885 这
如何在动态创建的reportviewer报表的每一页上显示标题

我动态创建报告即我无法打开设计器 RDLC 并修复它我创建一个表并通过数据集填充它获取 XML 文件并将其导出为 PDF 文件但即使我写 string deviceInfo

随机推荐

MATLAB 的堆栈大小是多少？

MATLAB R2018a 64 位的默认堆栈大小是多少堆栈大小似乎比 64 位 C 程序大我为什么这么问我问这个问题是因为我正在调用英特尔 MKL拉帕克 dtrtri https software intel com en us
在java中修改复杂的csv文件

我想编写一个可以打印和修改不规则csv文件的程序格式如下 1 date 2 organization name 3 student name id number residence student name id number resid
将视觉选择发送到外部程序而不影响缓冲区

我想要实现的是将视觉选择发送到外部程序而不影响缓冲区的内容 Example 让以下代码块代表当前缓冲区让代表视觉选择的结束 This is not a test 1 lt This is not gt a test 2 This is
YouTube 播放器.destroy();即使在验证玩家时也会抛出“this.a is null”

所以我有一个带有两个面板的小应用程序使用 iframe API 单击一个面板将全屏展开该面板并显示播放视频按钮和一些附加信息单击左上角的按钮将使 UI 返回到标准状态关闭视频并将面板缩小到适合 50 50 现在我们有两个视频我
如何处理带有图像和文本视图的自定义列表视图中的图像视图的点击？

我想知道我们如何处理带有图像和文本视图的自定义列表视图上的图像视图的点击我什至使 Imageview 可点击这是我的代码自定义适配器 java public class CustomAdapter extends ArrayAdapt
返回第一个表中的所有数据，如果存在则仅返回第二个表中的 1 个数据

我正在使用MySql 我有 2 个表一个是带有主键 propertyId 的名称和数据列表表 2 包含具有主键 propertyImageId 的图像每个 propertyId 可能有多个图像或根本没有图像我需要获取属于agentI
SQL不是单组组函数

当我运行以下 SQL 语句时 SELECT MAX SUM TIME FROM downloads GROUP BY SSN 它返回客户下载的最大总价值但是如果我尝试通过将其添加到 select 语句来查找该最大值所属的社会安全号码 SE
C++ 使用 constexpr 和 lambda 表达式

我正在看书C 17 完整指南 https rads stackoverflow com amzn click com 396730017X以及第 6 1 节中constexprlambda作者举了两个例子 auto squared1 aut
检查 Swift 中是否存在 func

我想在调用函数之前检查它是否存在例如 if let touch AnyObject touches anyObject let location touch locationInView self touchMoved Int locat
Glassfish 作为 OSGi 容器

我正在评估 OSGi 容器主题是使用 Glassfish 来包含我的 OSGi 应用程序组件我的问题是 Glassfish 对此有好处吗有人有以这种方式使用它的经验吗背景该应用程序不是 Java EE 应用程序而是 Spring
Bash 在脚本中退出 sudo

我需要使用 sudo 执行安装脚本但在脚本结束时脚本需要退出 sudo 并以普通用户身份继续 Example sudo install sh 脚本以 root 身份运行并执行所需操作 su myscriptuser service my
如何以编程方式获取我的设备的手机号码？

我尝试过使用两种方法来检索我的电话号码但这两种方法都不起作用我用了电话管理器订阅管理器我确实获得了网络名称国家地区 iso 和 IMEI 但每当我尝试返回号码时它都不会返回任何内容我还添加了这些所需的所有权限我的清单如下
Selenium - 过时的元素引用：元素未附加到 C# 中的页面文档

我正在使用 selenium 来获取网站表格中的数据进行分析我必须扫描并获取大约 1000 行的表我知道该页面有 Javascript 它会自动更新 DOM 但表的行太多所以当我扫描代码时总是抛出异常我尝试使用以下代码 Boolea
在 Android 搜索视图中显示建议列表中的选择

我有一个带有建议列表的搜索视图如果用户从列表中选择一个项目则会发送一个新意图我可以应用我的过滤器但搜索视图仍为空如果我使用 setQuery 更新 onNewIntent 中的搜索视图见下文效果是所选项目显示在搜索视图中但建
APNs 通过 macOS Sierra 推送通知

我正在尝试使用连接到的简单 PHP 工具向我的手机发送推送通知ssl gateway push apple com 2195 但连接失败并出现以下错误 Warning stream socket client SSL operation f
通过文件目标完美缓存

阅读有关的文档后基于文件目标的输出缓存 https docs prefect io core concepts persistence html output caching based on a file target 我认为这个工作流程
iPhone SDK 合成 BOOL 数组

当尝试合成如下所示的 bool 数组时出现编译器错误 h import
getdata() 脚本仅在时间触发时超时

我正在从另一个电子表格导入一个范围并使用以下脚本将其粘贴到当前电子表格中 function getdata var values SpreadsheetApp openById XXXXXX getSheetByName SheetB g
使用tinymce 进行绑定淘汰赛

我正在尝试使用knockout 3 0 0 with tinymce 4 0 18 我想创造一些东西像这样 http jsfiddle net SalvadorDali jY3X2 1 很少有可编辑元素此处为 3 个但这些元素取自淘汰赛
使用 ElementTree 读取 .xml 等电子表格

我正在使用 ElementTree 读取 xml 文件但有一个单元格无法读取其数据我调整了我的文件以制作一个可重现的示例如下所示 from xml etree import ElementTree import io xmlf

使用 ElementTree 读取 .xml 等电子表格

使用 ElementTree 读取 .xml 等电子表格 的相关文章

随机推荐

热门标签

使用 ElementTree 读取 .xml 等电子表格的相关文章