python Alexa结果解析与lxml.etree

2023-12-05

我正在使用 aws 的 Alexa api，但我发现很难解析结果以获得我想要的结果

alexa api返回一个对象树<type 'lxml.etree._ElementTree'>

我用这个代码来打印树

from lxml import etree
root = tree.getroot()
print etree.tostring(root)

我得到下面的xml

<aws:UrlInfoResponse xmlns:aws="http://alexa.amazonaws.com/doc/2005-10-05/"><aws:Response xmlns:aws="http://awis.amazonaws.com/doc/2005-07-11"><aws:OperationRequest><aws:RequestId>ccf3f263-ab76-ab63-db99-244666044e85</aws:RequestId></aws:OperationRequest><aws:UrlInfoResult><aws:Alexa>

  <aws:ContentData>
    <aws:DataUrl type="canonical">google.com/</aws:DataUrl>
    <aws:SiteData>
      <aws:Title>Google</aws:Title>
      <aws:Description>Enables users to search the world's information, including webpages, images, and videos. Offers unique features and search technology.</aws:Description>
      <aws:OnlineSince>15-Sep-1997</aws:OnlineSince>
    </aws:SiteData>
    <aws:LinksInCount>3453627</aws:LinksInCount>
  </aws:ContentData>
  <aws:TrafficData>
    <aws:DataUrl type="canonical">google.com/</aws:DataUrl>
    <aws:Rank>1</aws:Rank>
  </aws:TrafficData>
</aws:Alexa></aws:UrlInfoResult><aws:ResponseStatus xmlns:aws="http://alexa.amazonaws.com/doc/2005-10-05/"><aws:StatusCode>Success</aws:StatusCode></aws:ResponseStatus></aws:Response></aws:UrlInfoResponse>

I use root.find('LinksInCount').text获取元素的值，但它不起作用。

我想知道如何获取文字3453627 of aws:LinksInCount

您遇到两个挑战：

使用命名空间的 XML
两个命名空间共享相同的命名空间前缀

XML 文档具有 2 个不同命名空间重用的前缀

You see "aws:"前缀，但它用于两个不同的命名空间：

xmlns:aws="http://alexa.amazonaws.com/doc/2005-10-05/"
xmlns:aws="http://awis.amazonaws.com/doc/2005-07-11"

在 XML 中使用相同的命名空间前缀是完全合法的。规则是，后一个有效。

xmlstr = """
<?xml version="1.0"?>
<aws:UrlInfoResponse xmlns:aws="http://alexa.amazonaws.com/doc/2005-10-05/">
  <aws:Response xmlns:aws="http://awis.amazonaws.com/doc/2005-07-11">
    <aws:OperationRequest>
      <aws:RequestId>ccf3f263-ab76-ab63-db99-244666044e85</aws:RequestId>
    </aws:OperationRequest>
    <aws:UrlInfoResult>
      <aws:Alexa>
        <aws:ContentData>
          <aws:DataUrl type="canonical">google.com/</aws:DataUrl>
          <aws:SiteData>
            <aws:Title>Google</aws:Title>
            <aws:Description>Enables users to search the world's information, including webpages, images, and videos. Offers unique features and search technology.</aws:Description>
            <aws:OnlineSince>15-Sep-1997</aws:OnlineSince>
          </aws:SiteData>
          <aws:LinksInCount>3453627</aws:LinksInCount>
        </aws:ContentData>
        <aws:TrafficData>
          <aws:DataUrl type="canonical">google.com/</aws:DataUrl>
          <aws:Rank>1</aws:Rank>
        </aws:TrafficData>
      </aws:Alexa>
    </aws:UrlInfoResult>
    <aws:ResponseStatus xmlns:aws="http://alexa.amazonaws.com/doc/2005-10-05/">
      <aws:StatusCode>Success</aws:StatusCode>
    </aws:ResponseStatus>
  </aws:Response>
</aws:UrlInfoResponse>
"""

下一个挑战是如何搜索命名空间元素。

我更喜欢使用xpath，为此，您可以在 xpath 表达式中使用您喜欢的任何名称空间，但您必须告诉xpath调用这些前缀的意思。这是由namespaces字典：

from lxml import etree
doc = etree.fromstring(xmlstr.strip())

namespaces = {"aws": "http://awis.amazonaws.com/doc/2005-07-11"}
texts = doc.xpath("//aws:LinksInCount/text()", namespaces=namespaces)
print texts[0]

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

amazonwebservices

lxml

xmletree

python Alexa结果解析与lxml.etree 的相关文章

如何在 Windows 64 上安装 NumPy？

NumPy 安装程序在注册表中找不到 python 路径无法安装需要 Python 2 5 版本但在注册表中未找到该版本 OK 我必须修改注册表吗我已经修改了 PATH 以指向Python25安装目录我可以检查一下您使用的是什么安
使用 matplotlib 从“列表列表”绘制 3D 曲面

我已经搜索了一些虽然我可以找到许多有用的网格网格示例但没有一个清楚地表明我如何将列表列表中的数据转换为可接受的形式以适应我所讨论的各种方式当谈到 numpy matplotlib 以及我所看到的建议的术语和步骤顺序时我有点迷失我
Twisted 的 Deferred 和 JavaScript 中的 Promise 一样吗？

我开始在一个需要异步编程的项目中使用 Twisted 并且文档非常好所以我的问题是 Twisted 中的 Deferred 与 Javascript 中的 Promise 相同吗如果不是有什么区别你的问题的答案是Yes and No
使用 pygame 显示 unicode 符号

我检查了其他答案但不明白为什么我的代码错误地显示 This is what I currently see https i stack imgur com 8tNIK png 这是关于文本渲染的相关代码 font pygame font
如何检查python xlrd库中的excel文件是否有效

有什么办法与xlrd库来检查您使用的文件是否是有效的 Excel 文件我知道还有其他库可以检查文件头我可以使用文件扩展名检查但为了多平台性我想知道是否有任何我可以使用的功能xlrd库本身在尝试打开文件时可能会返回类似 false 的内
检查 Python 中的可迭代对象中的所有元素的谓词是否计算为 true

我很确定有一个常见的习语但我无法通过谷歌搜索找到它这是我想做的用Java Applies the predicate to all elements of the iterable and returns true if all ev
pyspark 数据框中的自定义排序

是否有推荐的方法在 pyspark 中实现分类数据的自定义排序我理想地寻找 pandas 分类数据类型提供的功能因此给定一个数据集Speed列可能的选项是 Super Fast Fast Medium Slow 我想实现适合上下文的
Python 中的流式传输管道

我正在尝试使用 Python 将 vmstat 的输出转换为 CSV 文件因此我使用类似的方法转换为 CSV 并将日期和时间添加为列 vmstat 5 python myscript py gt gt vmstat log 我遇到的问题是
如何在 Python 中加密并在 Java 中解密？

我正在尝试在 Python 程序中加密一些数据并将其保存然后在 Java 程序中解密该数据在Python中我像这样加密它 from Crypto Cipher import AES KEY 1234567890123456789012
Emacs 24.x 上的 IPython 支持

我对 IPython 与 Emacs 的集成感到困惑从 Emacs 24 开始 Emacs 附带了自己的python el 该文件是否支持 IPython 还是仅支持 Python 另外维基百科 http emacswiki org e
一段时间后终止线程的最 Pythonic 方法

我想在线程中运行一个进程它正在迭代一个大型数据库表当线程运行时我只想让程序等待如果该线程花费的时间超过 30 秒我想终止该线程并执行其他操作通过终止线程我的意思是我希望它停止活动并优雅地释放资源我认为最好的方法是通过Thre
Django 的 request.FILES 出现 UnicodeDecodeError

我在视图调用中有以下代码 def view request body u for filename f in request FILES items body body Filename filename n f read n 在某些情况下
使用Python计算目录的大小？

在我重新发明这个特殊的轮子之前有没有人有一个很好的例程来使用 Python 计算目录的大小如果例程能够很好地以 Mb Gb 等格式格式化大小那就太好了这会遍历所有子目录总结文件大小 import os def get size s
ANTLR 获取并拆分词法分析器内容

首先对我的英语感到抱歉我还在学习我为我的框架编写 Python 模块用于解析 CSS 文件我尝试了 regex ply python 词法分析器和解析器但我发现自己在 ANTLR 中第一次尝试我需要解析 CSS 文件中的注释
将seaborn.palplot轴添加到现有图形中以可视化不同调色板

将seaborn人物添加到子图中是usually https seaborn pydata org examples cubehelix palette html创建图形时通过传递 ax 来完成例如 sns kdeplot x y cma
Elasticsearch 通过搜索返回拼音标记

我用语音分析插件 https www elastic co guide en elasticsearch plugins current analysis phonetic html由于语音转换从弹性搜索中进行一些字符串匹配我的问题是
TKinter 中的禁用/启用按钮

我正在尝试制作一个像开关一样的按钮所以如果我单击禁用按钮它将禁用按钮有效如果我再次按下它它将再次启用它我尝试了 if else 之类的东西但没有成功这是一个例子 from tkinter import fenster Tk
多个对象以某种方式相互干扰[原始版本]

我有一个神经网络 NN 当应用于单个数据集时它可以完美地工作但是如果我想在一组数据上运行神经网络然后创建一个新的神经网络实例以在不同的数据集甚至再次同一组数据上运行那么新实例将产生完全错误的预测例如对 XOR 模式进行训练
查找总和为给定数字的值组合的函数

这个帖子查找提供的 Sum 值的组合 https stackoverflow com a 20194023 1561176呈现函数subsets with sum 它在数组中查找总和等于给定值的值的组合但由于这个帖子已经有6年多了我发这
Apache Beam Pipeline 写表后查询表

我有一个 Apache Beam Dataflow 管道它将结果写入 BigQuery 表然后我想查询该表以获取管道的单独部分但是我似乎无法弄清楚如何正确设置此管道依赖性我编写的新表然后想要查询与一个单独的表连接以进行某些过滤

随机推荐

从 WCF 中的 HTTP 响应中删除服务器

我有一个在 IIS 7 5 上运行的暴露于互联网的 WCF 服务我需要保护它的安全我想删除 HTTP 响应中的 Server 标头我已经实现了 IDispatchMessageInspector 代码如下 public void Be
R在conda环境下加载igraph失败

我正在尝试在 Windows 上的 Ubuntu WSL2 安装中运行 RShiny 应用程序我不是 R 方面的专家但我觉得这是由于 conda 与 R 交互造成的问题我运行以下命令 conda create n r env r es
取消单次重复本地通知

我已安排在上午 10 点重复本地通知重复间隔为一周是否可以通过编程方式仅取消一次重复通知例如现在是上午 9 30 用户点击了复选框并以编程方式取消了通知因此它不会在 10 00 显示但会在下周显示这不可能取消重复本地通知的
如何访问模型中的current_user对象？

我正在尝试在我的团队模型中编写一个方法但 current user 显示此错误未定义的局部变量或方法 current user def set default url if current user id self user id
是否可以在存储库外部存储 Codeception 的功能/接受配置 URL？

我有一个使用 Codeception 的 PHP 项目有几个开发人员正在开发该项目每个人都有自己的环境和不同的项目副本 URL 但在 Codeception 功能接受 yml 配置文件中我们必须设置用于接受和功能测试的 URL 我们
来自字节数组的 NSImage

我正在尝试在 NSImageView 中显示图像图像包含在字节数组中我怎样才能做到这一点据我了解我需要将 byte 转换为 NSData 变量并将其提供给 NSImage 它是否正确我该怎么做我尝试过强制转换但不起作用而且似
检查列表中的所有项目是否相同

我有一个日期时间项目列表如何使用 LINQ 查询检查所有项目是否相同在任何给定时间列表中可能有 1 2 20 50 或 100 个项目像这样 if list Distinct Skip 1 Any Or if list Any
如何在 Django 中查询一天中特定时间之前创建的对象？

在 Django 中我试图将查询过滤为仅在一天中特定时间之前创建的对象我有一个名为 created at 的日期时间字段它存储创建该对象的日期时间我想做的是 query query filter created at hour lt
在 JavaScript 中将日期字符串解析为日期

我有这个日期字符串 2013 05 12 11 41 31 我试过 var strDate 2013 05 12 11 41 31 var dateParts strDate split var date new Date datePart
为什么嵌套函数的想法没有在旧的 C++ 标准中实现？

在开发旧的 C 标准期间嵌套函数的想法被认为是无用的因为它的用法基本上被另一个概念如面向对象编程所涵盖还是只是为了简化而实施嵌套函数有用需要包含函数的堆栈帧作为上下文看这个 class Foo void Tripulate
为什么在 python 的输出中使用单引号和大括号？

我在 ubuntu 版本 16 04 中使用 ipython 笔记本并运行此代码 word Rushiraj length 0 for char in rushiraj length length 1 print There are len
如何调试 swf 浏览器崩溃

我的 swf 偶尔会导致浏览器崩溃或者就像 chrome 告诉我的那样只是导致插件崩溃如何诊断错误我正在使用 Flex 开发 Flash Player 9 我尝试过的事情打开日志文件以便我可以看到跟踪输出但是我的日志文件和
“本地系统”帐户和“网络服务”帐户之间的区别？

我编写了一个生成单独进程的 Windows 服务此过程创建一个 COM 对象如果服务在本地系统帐户下运行则一切正常但如果服务在网络服务帐户下运行外部进程将启动但无法创建 COM 对象 COM 对象创建返回的错误不是标准
Couchbase：无法对关闭存储桶执行操作

当尝试通过 node js 将 2M 对象插入 Couchbase 时我收到此错误 1M 工作正常 C Users Administrator Desktop node modules couchbase lib bucket js 第7
在 asp .net 中处理通过浏览器历史记录加载的页面的最佳方法是什么？

我有一个数据库和用户密集型应用程序用户非常热衷于用于导航的浏览器历史记录按钮有没有一种方法可以绝对保证如果用户从浏览器历史记录中选择某些内容页面将重新加载我经常看到的是页面的副本将从浏览器缓存中显示而不是重新加载我试过了 th
View 类型中的方法 setOnClickListener(View.OnClickListener) 不适用于参数 (new DialogInterface.OnClickListener(){})

尝试将 onClickListener 添加到我的 listView 中的项目中但收到一条错误消息 The method setOnClickListener View OnClickListener in the type View i
Android - 如何将列表视图项目对齐以左右对齐？

我正在尝试向 ListView 添加图像使其看起来更像一个按钮我希望图像小一点也许是当前的 60 并且图像可以很好地排列在右侧的一列中这是我目前拥有的屏幕这是我的列表视图 xml
通过顶点标签属性创建一个boostfiltered_graph

目前我有一个图表我一直在跟踪它vertices and labels通过一个external map 因此每当我需要访问标签属性时我都会在地图中找到标签并获取mapped vertex vertex properties struc
绘制、重新绘制、paintComponent

对不起我搜索了很多以找到这 3 个函数 paint repaint paintComponent 如何在它们之间交互但我不知道你能准确地解释一下他们什么时候被调用因为有时java调用它而不需要我问他他们到底做了什么以及他们之间有什
python Alexa结果解析与lxml.etree

我正在使用 aws 的 Alexa api 但我发现很难解析结果以获得我想要的结果 alexa api返回一个对象树

python Alexa结果解析与lxml.etree

XML 文档具有 2 个不同命名空间重用的前缀

python Alexa结果解析与lxml.etree 的相关文章

随机推荐

热门标签