使用 lxml 解析包含默认命名空间的 xml 以获取元素值

2024-02-29

我有一个像这样的 xml 字符串

str1 = """<sitemapindex xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
<sitemap>
    <loc>
        http://www.example.org/sitemap_1.xml.gz
    </loc>
    <lastmod>2015-07-01</lastmod>
</sitemap>
</sitemapindex> """

我想提取里面存在的所有网址<loc>节点 IEhttp://www.example.org/sitemap_1.xml.gz

我尝试了这段代码，但它没有字

from lxml import etree
root = etree.fromstring(str1)
urls = root.xpath("//loc/text()")
print urls
[]

我尝试检查我的根节点是否正确形成。我尝试了这个并返回与 str1 相同的字符串

etree.tostring(root)

'<sitemapindex xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">\n<sitemap>\n<loc>http://www.example.org/sitemap_1.xml.gz</loc>\n<lastmod>2015-07-01</lastmod>\n</sitemap>\n</sitemapindex>'

这是处理具有默认名称空间的 XML 时的常见错误。您的 XML 有默认命名空间，这是一个没有前缀的命名空间，如下所示：

<sitemapindex xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">

请注意，不仅声明默认命名空间的元素位于该命名空间中，而且所有后代元素都隐式继承祖先默认命名空间，除非另有指定（使用指向不同命名空间 uri 的显式命名空间前缀或本地默认命名空间）。这意味着，在这种情况下，所有元素包括loc位于默认命名空间中。

要选择名称空间中的元素，您需要定义名称空间映射的前缀，并在 XPath 中正确使用前缀：

from lxml import etree
str1 = '''<sitemapindex xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
<sitemap>
    <loc>
        http://www.example.org/sitemap_1.xml.gz
    </loc>
    <lastmod>2015-07-01</lastmod>
</sitemap>
</sitemapindex>'''
root = etree.fromstring(str1)

ns = {"d" : "http://www.sitemaps.org/schemas/sitemap/0.9"}
url = root.xpath("//d:loc", namespaces=ns)[0]
print etree.tostring(url)

output :

<loc xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
        http://www.example.org/sitemap_1.xml.gz
    </loc>

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

xml

lxml

elementtree

defaultnamespace

使用 lxml 解析包含默认命名空间的 xml 以获取元素值的相关文章

如果 Excel 文件是由程序创建的，Pandas read_excel 对于具有简单公式的单元格返回 nan [重复]

这个问题在这里已经有答案了 I use pd read excel读取由以下命令创建的 excel 文件openpyxl并从一个网址下载解析后的数据框将给出nan如果单元格值是公式 which formula is simply 100
如何使用一个模型中间层的输出作为另一个模型的输入？

我训练一个模型A并尝试使用中间层的输出name layer x 作为模型的附加输入B 我尝试像 Keras 文档一样使用中间层的输出https keras io getting started faq how can i obtain th
使用 NumPy 编写一个函数来计算具有特定公差的积分

我想编写一个自定义函数来以特定容差对表达式 python 或 lambda 函数进行数字积分我知道与scipy integrate quad人们可以简单地改变epsabs但我想使用 numpy 自己编写该函数 From 这篇博文 htt
Django 多对多关系（类别）

我的目标是向我的 Post 模型添加类别我希望以后能够按不同类别有时是多个类别查询所有帖子模型 py class Category models Model categories 1 red 2 blue 3 black title
ValueError：数据必须为正（boxcox scipy）

我正在尝试将我的数据集转换为正态分布 0 8 298511e 03 1 3 055319e 01 2 6 938647e 02 3 2 904091e 02 4 7 422441e 02 5 6 074046e 02 6 9 265747e
设置高亮大括号的 vim 颜色主题

如何更改突出显示大括号的 vim 配色方案我希望实际编辑 vim 主题文件以使更改永久生效问候克雷格匹配括号的自动高亮颜色称为MatchParen 您可以通过执行以下操作来更改 vimrc 中的颜色 highlight MatchP
查找与另一列 Pandas 中的唯一值关联的列中的值的交集

如果我有一个像这样的数据框非常小的例子 col1 col2 0 a 1 1 a 2 2 b 1 3 b 2 4 b 4 5 c 1 6 c 2 7 c 3 我想要所有的交集col2当价值观与其独特性相关时col1值因此在这种情况下交集
Text::平衡和多行 xml

看来我有点失落了我需要解析一个大的大约 100 mb 且相当难看的 xml 文件如果我使用parsefile 它返回错误文档元素后的垃圾但它会很乐意解析文件的较小元素所以我决定将文件分解为元素并解析它们由于不鼓励使用正则表达式
正在使用 PIL 保存损坏的图像

我遇到一个问题操作图像像素导致保存损坏的图像因此我使用 PIL 打开图像然后将其转换为 NumPy 数组 image Image open myimage png np image np asarray image 然后我转置图像
通过 Python 循环浏览网络上的目录并显示其内容（文件和其他目录）

同样的道理在Python中处理从源目录到目标目录的一组文件 https stackoverflow com questions 2593399 process a set of files from a source directory t
Python：在字典中查找具有唯一值的键？

我收到一个字典作为输入并且想要返回一个键列表其中字典值在该字典的范围内是唯一的我将用一个例子来澄清假设我的输入是字典 a 构造如下 a dict a cat 1 a fish 1 a dog 2 lt unique a bat 3
如何展平解析树并存储在字符串中以进行进一步的字符串操作 python nltk

我正在尝试从树结构中获取扁平树如下所示我想将整个树放在一个字符串中就像没有检测到坏树错误一样 S NP SBJ NP DT The JJ high JJ seven day PP IN of NP DT the CD 400 NNS
Django 将 JSON 数据传递给静态 getJSON/Javascript

我正在尝试从 models py 中获取数据并将其序列化为views py 中的 JSON 对象模型 py class Platform models Model platformtype models CharField max len
如何创建用于霍夫曼编码和解码的树？

对于我的作业我将对霍夫曼树进行编码和解码我在创建树时遇到问题并且陷入困境不要介意打印语句它们只是让我测试并查看函数运行时的输出是什么对于第一个 for 循环我从主块中用于测试的文本文件中获取了所有值和索引在第二个 for 循
无需访问 Internet 即可部署 Django 的简单方法？

我拥有的是使用 Django 开发的 Intranet 站点的开发版本以及放置在 virtualenv 中的一些外部库它运行良好我可以在任何具有互联网连接的计算机上使用相同的参数使用 pip 轻松设置 virtualenv 但是不幸
是否可以使用 Anaconda 包作为 Google Cloud Functions 的依赖项？

我正在使用 Python 运行时编写 Google Cloud Function 我需要包含一些无法使用的依赖项pip 如文档中所述here https cloud google com functions docs writing spe
UnicodeDecodeError：部署到 Heroku 时，“utf-8”编解码器无法解码位置 0 中的字节 0xff

我尝试在heroku上部署我的简单django项目但我不明白如何解决这个问题这是git push heroku master remote Traceback most recent call last remote File tmp
使用 pandas 单元格中列表的长度选择行[重复]

这个问题在这里已经有答案了我有一张表 df a b c 1 x y x 2 x z c d 3 x t e f g 只是想知道如何使用 c 列的长度选择行 such as df loc len df c gt 1 我知道这是不对的正确的
如何使用 Python/Django 在 Facebook 中获取（和使用）扩展权限

我正在尝试编写一个简单的应用程序让用户授予我的代码写入其页面的 Facebook 流的权限据我了解它应该很简单让用户单击一个按钮启动一个弹出窗口其中包含我的 Facebook 应用程序中的页面在该页面中他们单击授予的内容流发
D3 将现有 SVG 字符串（或元素）追加（插入）到 DIV

我到处寻找这个问题的答案并找到了一些我认为可能有用的资源但最终没有让我找到答案这里有一些外部SVG http bl ocks org mbostock 1014829 嵌入SVG https stackoverflow com qu

随机推荐

这是内置的绘图吗？

In 这个链接的图像 http snpent com images button gif 我在很多应用程序中经常看到右侧的按钮在我的 Moto Droid 上它在设置应用程序中广泛使用它还用作默认的 AlertDialog 图标我可
如何告诉 Clang 不要冒充其他编译器？

我过去遇到过这个问题 LLVM 定义 GNUC https www google com search q 22 GNUC 22 LLVM bug 但它不能使用 GCC 可以使用的程序我在 Windows 上再次遇到它 LLVM 定义 M
如何禁用 Eclipse 中的格式化符号？

由于所有格式符号我实际上什么也看不到我不知道那是什么热键但我找不到任何解决方案如何禁用这些符号你知道是否有热键吗我不记得那个热键是什么了 You can also disable them by using this button
如何将 pt 转换为 em？

如何将 pt 转换为 em 因为我使用 Photoshop 来设计模板软件的文本大小采用 pt 格式然后我必须将设计细节传输给开发人员他们总是需要 em 格式的所有文本大小我参考了这个网站http pxtoem com http p
在 XNA 中缩放整个屏幕

我正在尝试使用 XNA 制作一个冒险游戏引擎让您制作看起来像是 90 年代初期的游戏例如触手之日 and 山姆和麦克斯上路因此我希望游戏实际以 320x240 运行我知道它可能应该是 320x200 但是嘘但它应该根据用户设置
Cakephp 错误重定向

所以这些我们都知道Error missing controller或任何其他错误CakePHP可以扔现在我的问题可能相当简单但我找不到有关该主题的任何文档我如何重定向到404 not found or a 500 execption如
无法使用 Git 将文件重置为特定提交

我有一个修改过的文件我想恢复到最新提交中的任何内容但它卡在那里总是被标记为已修改 git status On branch master Changed but not updated use git add
如何使用双指针声明 NSString 变量

我想使用双指针我试图这样声明 NSString a 但是 Xcode 向我显示错误指向非常量类型 NSString 没有显式所有权的指针并且无法编译它最后我想做这样的事 NSString a NSString b b NSStrin
从映射中添加/删除键值对

如何在 Elixir 映射中添加和删除键值对这不起作用 map a 1 b 2 c 3 map d 4 添加到地图 Use Map put map key value https hexdocs pm elixir Map html
Tensorflow 中每个类别的 F1 分数指标

我已经实现了以下指标来查看我认为相关的类的精确度和召回率 metrics tf keras metrics Recall class id 1 name Bkwd R tf keras metrics Recall class id 2 n
计算R中目录的大小

我想计算 R 中目录的大小我尝试使用list info函数不幸的是它遵循符号链接所以我的结果有偏差 return wrong size with duplicate counts for symlinks sum file info
我可以在 .net core 中使用 Entity Framework 6（非核心）吗？

Entity Framework Core 不支持空间数据我需要在我的应用程序中使用空间数据我可以在 net core 中使用 Entity Framework 6 吗如果可以的话我该如何注册DatabaseContext in St
SIMD如下代码

如何用 C 语言对以下代码进行 SIMIDize 当然使用 SIMD 内在函数我在理解 SIMD 内在函数方面遇到困难这会有很大帮助 int sum naive int n int a int sum 0 for int i 0 i l
Rails 控制台中没有数据库连接

我的 Rails 应用程序在运行时运行良好rake db migrate但是当我尝试启动 Rails 控制台时出现问题 2 0 0p247 003 gt User gt User no database connection 这是由于 Ac
在顶部添加新项目后，回收器视图不会滚动到顶部，因为列表适配器的更改尚未发生

我在实时数据的开头获取包含新项目的新列表然后使用其数据更新适配器 viewModel myLiveData observe this Observer myList gt adapter submitList myList recycle
Python/Numpy 中包含 NAN 的数组的线性回归

我有两个数组比如说varx and vary 两者在不同位置都包含 NaN 值但是我想对两者进行线性回归以显示两个数组的相关程度 This http glowingpython blogspot de 2012 03 linear r
如何使用 jQuery 触发组合键

我已经编码了一些东西 http fincha com kunden schmitt http fincha com kunden schmitt I zoom in with css zoom but I need the buttons
AVCaptureVideoDataOutput 和设置 kCVPixelBufferWidthKey & kCVPixelBufferHeightKey

我正在尝试捕获特定尺寸的帧AVCaptureVideoDataOutput通过设置kCVPixelBufferWidthKey kCVPixelBufferHeightKey 问题是缓冲区的宽度和高度永远不会改变它们总是会回来852x64
如何修复 Google-cloud-sdk 156.0.0“您的应用程序中的文件太多，无法监控所有文件的更改。”？

我刚刚在 osX 上安装了 Go 1 6 4 和 google cloud sdk 1 56 0 0 当我尝试运行本地 dev server 时我收到以下警告 Users Bryan go src google cloud sdk pla
使用 lxml 解析包含默认命名空间的 xml 以获取元素值

我有一个像这样的 xml 字符串 str1

使用 lxml 解析包含默认命名空间的 xml 以获取元素值

使用 lxml 解析包含默认命名空间的 xml 以获取元素值 的相关文章

随机推荐

热门标签

使用 lxml 解析包含默认命名空间的 xml 以获取元素值的相关文章