iterparse 无法解析某个字段，而其他类似的则可以

2023-12-06

我用Python的iterparse解析 nessus 扫描的 XML 结果（.nessus 文件）。对意外记录的解析失败，但类似的记录已被正确解析。

XML 文件的一般结构是很多记录，如下所示：

<ReportHost>
  <ReportItem>
    <foo>9.3</foo>
    <bar>hello</bar>
  </ReportItem>
  <ReportItem>
     <foo>10.0</foo>
     <bar>world</bar>
</ReportHost>
<ReportHost>
   ...
</ReportHost>

换句话说，很多主机（ReportHost）有很多要报告的项目（ReportItem），而后者有几个特点（foo, bar）。我将考虑为每个项目生成一行及其特征。

解析在文件中间的简单行处失败（foo在这种情况下是cvss_base_score)

<cvss_base_score>9.3</cvss_base_score>

同时解析了约 200 条相似的行，没有出现任何问题。

相关的代码如下——它设置上下文标记（inReportHost and inReportEvent它告诉我在 XML 文件结构中的位置，并根据上下文分配或打印一个值）

import xml.etree.cElementTree as ET
inReportHost = False
inReportItem = False

for event, elem in ET.iterparse("test2.nessus", events=("start", "end")):
    if event == 'start' and elem.tag == "ReportHost":
        inReportHost = True
    if event == 'end' and elem.tag == "ReportHost":
        inReportHost = False
        elem.clear()
    if inReportHost:
        if event == 'start' and elem.tag == 'ReportItem':
            inReportItem = True
            cvss = ''
        if event == 'start' and inReportItem:
            if event == 'start' and elem.tag == 'cvss_base_score':
                cvss = elem.text
        if event == 'end' and elem.tag == 'ReportItem':
            print cvss
            inReportItem = False

cvss有时具有 None 值（在cvss = elem.text分配），即使相同的条目已在文件中的较早位置正确解析。

如果我在作业下面添加一些类似于

if cvss is None: cvss = "0"

然后进一步解析许多cvss分配它们适当的值（还有一些是 None ）。

当采取<ReportHost>...</reportHost>这会导致错误的解析并通过程序运行它 - 它工作正常（即cvss被安排了9.3正如预期的那样）。

我迷失在我的代码中犯错误的地方，因为对于大量相似的记录，有些记录正确处理，有些记录不正确（有些记录是相同的，但处理方式仍然不同）。我也找不到有关失败记录的任何具体信息 - 之前和之后相同的记录都可以。

来自iterparse() 文档:

注意：iterparse() 只保证它已经看到“>”字符当它发出“start”事件时，它是一个起始标签，所以属性是已定义，但 text 和 tail 属性的内容是那时未定义。这同样适用于元素子元素；他们可能在场，也可能不在场。如果您需要一个完全填充的元素，相反，寻找“结束”事件。

Drop inReport*仅在完全解析后的“结束”事件上变量和处理 ReportHost。使用 ElementTree API 获取必要的信息，例如cvss_base_score来自当前 ReportHost 元素。

为了保留记忆，请执行以下操作：

import xml.etree.cElementTree as etree

def getelements(filename_or_file, tag):
    context = iter(etree.iterparse(filename_or_file, events=('start', 'end')))
    _, root = next(context) # get root element
    for event, elem in context:
        if event == 'end' and elem.tag == tag:
            yield elem
            root.clear() # preserve memory

for host in getelements("test2.nessus", "ReportHost"):
    for cvss_el in host.iter("cvss_base_score"):
        print(cvss_el.text)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

xml

xmlparsing

iterparse

iterparse 无法解析某个字段，而其他类似的则可以的相关文章

安装 python-dev 和链接库后，Cython 中的 Hello World 程序因 gcc 失败

我创建了一个简单的 hello world 程序并尝试使用 gcc 执行生成的 C 程序但无论我做什么我都会得到大量未定义的引用 SO 有很多类似的问题但他们都说安装 python dev 或其某些变体或添加用于链接和加载库的标志
Anaconda / 求解环境：初始冻结求解失败。使用灵活的求解重试

我尝试安装 anaconda 软件包出现以下消息求解环境初始冻结求解失败使用灵活的解决方案重试解决环境 current repodata json 中的 repodata 失败将使用下一个 repodata 源重试收集包元数据
使用Python下载YouTube视频到某个目录

我已尝试使用以下代码在 YouTube 中下载视频并且它可以正常工作但我想将视频保存在特定位置现在它正在将视频保存在C Users Download 如果我想将视频保存在桌面上我需要对代码进行哪些更改 from future impo
Android - 超链接不可点击

我的应用程序中有一些链接一个用于网站一个用于电话号码一个用于电子邮件电子邮件和电话链接均有效且可点击但由于某种原因网站超链接仍然无法点击有什么想法吗代码如下
使用 Python 自动化旧的 DOS 应用程序

有没有办法从Python 在Windows上自动化旧的DOS应用程序 16位可能需要模拟器例如DOSBox 我想将密钥和字符串发送到应用程序检测 DOS 屏幕的更新并获取应用程序输出如果 DOS 应用程序能够隐藏运行即不显
从 MySQL 将数字数据加载到 python/pandas/numpy 数组的最快方法

我想从 MySQL 表中读取一些数字双精度即 float64 数据数据大小约为 200k 行 MATLAB 参考 tic feature accel off conn database c fetch exec conn select
使用 Python 从基于 AJAX 的网站提取信息

我正在尝试使用 Python 检索基于 ajax 的网站例如 www snapbird org 上的查询结果由于它没有显示在页面源中我不确定如何继续我是一个Python新手因此如果我能得到一个指向正确方向的指针那就太好了如果更容
将 xml 加载到 php 文件时出现“xmlParseEntityRef：无名称”警告

我正在使用 php 读取 xmlsimplexml load file 然而当尝试加载 xml 时它会显示警告列表 Warning simplexml load file function simplexml load file
从另一个未排序的numpy数组中的数据查找未排序的numpy数组中值的索引位置[重复]

这个问题在这里已经有答案了我有一个 numpy 数组 A 其中包含可以按任何顺序排列的唯一 ID 例如A 1 3 2 我有第二个 numpy 数组 B 它记录了 ID 何时被使用例如B 3 3 1 3 2 1 2 3 1 1 2 3 3
Python 单元测试 Google Bigquery

我在对以下代码块进行单元测试时遇到问题 from google cloud import bigquery from google oauth2 import service account def run query query gcp
如何为python虚拟环境设置特定的python版本？ [复制]

这个问题在这里已经有答案了我是 python 的新手我正在尝试为我的项目添加一个新环境该环境在我当前的环境 Python 3 7 5 上运行良好添加所有依赖项后我遇到了 pyttsx3 包的问题用于 python 文本到语音进
如何使用ssl启动flask_socketio应用程序？

我应该如何使用 SSL 将 app run 转换为 sockio run 我有下面的应用程序启动代码与 Flask 开发服务器一起运行 if name main app run ssl context ssl cert ssl key 我现
在查找表中查找字符串值以填充第二个数据帧

我有两个数据框 main df header 1 0 value 1 1 value 2 2 value 3 3 value 1 和一个查找数据框lookup df header 1 header 2 0 value 1 lookup va
如何在 Angular 4 中将 xml 转换为 json？

我是 Angular 4 的初学者我没有足够的知识如何处理 XML 到 JSON 以及如何在 Angular 4 中调用服务请建议基于库http goessner net download prj jsonxml http goess
使用OIL自动旋转手机和加速度计拍摄的照片

我在网络应用程序中使用 Django PIL Amazon boto 用户发送图片然后 Web 应用程序显示它大多数情况下人们会发送用手机拍摄的照片有时图像以错误的方向显示有没有办法使用 PIL 或 Django 的 Image
检查单元测试中是否调用了 Timer.cancel

我正在使用threading Timer包在 x 秒后执行方法但是在某些情况下我想提前执行此方法并取消计时器因此不会调用两次我如何对此进行单元测试我想知道计时器是否已停止以便不再调用该方法我现在使用以下代码不幸的是is a
如何将焦点集中到 python Tkinter 文本小部件？

我希望能够打开应用程序 GUI 并让它自动将光标放置到特定的文本小部件中最好的情况是应用程序启动后有人就可以开始输入而无需单击文本小部件这只是显示问题的一个小示例 from Tkinter import root Tk Windo
真实文件对象比 StringIO 和 cStringIO 慢？

StringIO其代码中有以下注释 Notes Using a real file is often faster but less convenient There s also a much faster implementation
使用 pytz 获取时区的国家/地区代码？

我在用着pytz http pytz sourceforge net country information 我已经阅读了整个文档表但没有看到如何做到这一点我有一个时区美国芝加哥我想要的只是获取该时区的相应国家地区代码美国它
访问 django for 循环中的元素

我有一个 Django 模板其中包含以下代码该模板创建多个按钮并尝试通过单击在同一按钮上删除隐藏其中一个按钮 for h in helicopters div class btn group div

随机推荐

如何使用聚类协方差矩阵对回归系数进行线性假设检验？

我有兴趣计算 R 中线性回归后系数线性组合的估计值和标准误差例如假设我有回归和测试 data mtcars library multcomp lm1 lt lm mpg cyl hp data mtcars summary glht l
对 DataFrame 中的列子集进行逻辑或

我想获取 df mylist 中至少其中一列包含 True 的所有行我目前正在做 df df df mylist 0 df mylist 1 df mylist 2 where mylist是与列相关的字符串列表df 但我想这样做任何
iOS 使用当前位置权限对话框在 Phonegap 应用程序中显示两次

我有一个Phonegap应用程序我包括cordova js在 HTML 中但不在www目录我正在等待deviceready被解雇然后我打电话 navigator geolocation getCurrentPosition succ
如何在另一页获取数组详细信息

我有类别数组还有更多产品我需要在类别页面中显示类别当单击某个类别时我必须重定向产品页面并显示必要的产品单击产品时我必须重定向产品详细信息页面并显示必要的产品详细信息类别加载到类别页面点击时会重定向到产品页面但是我看不到产
Android 获取手机联系人并删除重复项

我遇到了与联系人相关的问题我获取了手机联系人并将它们存储在我的列表对象中这是它的代码 Uri uri ContactsContract Data CONTENT URI String projection ContactsContrac
我应该如何构建我的 Node/express/mongodb 应用程序？

我只是好奇人们如何构建他们的 Node js 应用程序通常我创建模型视图控制器就这么简单但我对 Node js 领域还算陌生我正在尝试尽可能多地了解社区的运作方式欢迎任何答案谢谢无论如何我的实际设置是这样的直到我找到
如何以编程方式判断Word文档是否损坏？

我有一个小的 C 应用程序可以与 word 进行互操作将一堆 word doc 文件转换为文本文件并且在大多数情况下这都可以正常工作但是如果文档已损坏则 word 无法打开该文件并弹出一个对话框这意味着我无法完全自动化此转换
强制关闭 Android Activity 之前的回调？

我希望在我的应用程序崩溃之前执行一些紧急清理代码我尝试使用 onDestroy onFinal 和 Finalize 无济于事这在 Android Activity 中可能吗好吧我建议您的应用程序一开始就不要崩溃如果有什么东西可能
有没有更好的方法来求数字乘法和求和？

int N 2345 var digitArray N ToString ToCharArray int multiplicationSum 1 foreach char digit in digitArray multiplication
如何标记因子但仍保留其原始水平值 - R

我将这个问题分为两部分第一部分是一般问题第二部分是具体问题首先我想知道是否有一种可能的方法来标记数字因子但仍保留其原始数字级别这特别令人困惑因为我意识到当我们将标签参数传递给一个因子时它就会变成该因子的级别例如 x lt f
我的网址是否以斜杠 (/) 结尾？我该如何使用 codeigniter 来做到这一点

我正在尝试找出最合适的从我读过的文章来看似乎最好以斜杠结尾 url 所以而不是 http example url article 内容如下 http example url article 首先我调整了 htaccess 以强制尾随斜
在 Java 中组成 URL 或 URI 的惯用方法是什么？

如何在 Java 中构建 URL 或 URI 有没有一种惯用的方法或者可以轻松做到这一点的库我需要允许从请求字符串开始解析更改各种 URL 部分方案主机路径查询字符串并支持添加和自动编码查询参数从 Apache HTTP
Node.js 开始读取文件的特定行

在 Node js 上我们可以使用以下命令逐行读取文件readline module var fs require fs var readline require readline var rl readline createInterf
Azure 广告在声明中返回角色，但 User.IsInRole 返回 false

知道是什么原因造成的吗我可以在 User Claims 中看到声明我唯一能想到的是来自 Azure Ad Roles 的声明返回的结果与 IsInRole 检查的内容不同声明中显示的 CorpAdmin 角色 User IsInRo
使用 ...(rest) 参数将参数从数组传递到 Actionscript 方法

我的问题是这个问题的 Flex 换位我可以将数组作为参数传递给 Java 中具有可变参数的方法吗也就是说我在一些 Actionscript 代码中有一个数组我需要将数组中索引的每个对象传递到一个方法中method arguments
从 ListView 的自定义适配器中的 URL 加载图像 (Android Studio)

虽然位图似乎已正确获取但变量 userBitmap 将保持为空然而当在我的平板电脑上向上或向下滚动时新的列表行将包含图片但它们都是相同的并且是错误的真的真的很困惑我尝试了多种不同的方法从网络获取图像任何帮助是极大的赞赏我
如何恢复初始 git 提交？

我第一次提交到 git 存储库然后我对这个承诺感到后悔并想恢复它我尝试 git reset hard HEAD 1 我收到这条消息 fatal ambiguous argument HEAD 1 unknown revision or
Ajax，防止点击时出现多个请求

当用户单击登录或注册按钮时我试图阻止多个请求这是我的代码但它不起作用第一次工作正常然后返回 false do login click function e e preventDefault if this data request
C# - 从数据表中删除具有相同列值的行

我有一个DataTable看起来像这样 ID Name DateBirth 1 aa 1 1 11 2 bb 2 3 11 2 cc 1 2 12 3 cd 2 3 12 这是删除具有相同 ID 的行的最快方法以获得类似的结果保留第一个
iterparse 无法解析某个字段，而其他类似的则可以

我用Python的iterparse解析 nessus 扫描的 XML 结果 nessus 文件对意外记录的解析失败但类似的记录已被正确解析 XML 文件的一般结构是很多记录如下所示

iterparse 无法解析某个字段，而其他类似的则可以

iterparse 无法解析某个字段，而其他类似的则可以 的相关文章

随机推荐

热门标签

iterparse 无法解析某个字段，而其他类似的则可以的相关文章