Python XML 解析和 getElementsByTagName

2023-12-08

我试图解析以下 xml 并围绕我的业务需求获取我感兴趣的特定标签。我想我做错了什么。不知道如何解析我所需的标签？想要利用 pandas，以便我可以进一步过滤细节。学弟学妹们多多支持

我的 XML 来自 URI

<couponfeed>
 <TotalMatches>1459</TotalMatches>
 <TotalPages>3</TotalPages>
 <PageNumberRequested>1</PageNumberRequested>
 <link type="TEXT">
  <categories>
   <category id="1">Apparel</category>
  </categories>
  <promotiontypes>
    <promotiontype id="11">Percentage off</promotiontype>
   </promotiontypes>
   <offerdescription>25% Off Boys Quiksilver Apparel. Shop now at Macys.com! Valid 7/23 through 7/25!</offerdescription>
   <offerstartdate>2020-07-24</offerstartdate>
   <offerenddate>2020-07-26</offerenddate>
   <clickurl>https://click.synergy.com/fs-bin/click?id=Z&offerid=777210.100474694&type=3&subid=0</clickurl>
    <impressionpixel>https://ad.synergy.com/fs-bin/show?id=ZNAweM&bids=777210.100474694&type=3&subid=0</impressionpixel>
    <advertiserid>3184</advertiserid>
    <advertisername>cys.com</advertisername>
    <network id="1">US Network</network>
  </link>
 <link type="TEXT">
  <categories>
   <category id="1">Apparel</category>
  </categories>
  <promotiontypes>
   <promotiontype id="11">Percentage off</promotiontype>
  </promotiontypes>
  <offerdescription>25% Off Boys' Quiksilver Apparel. Shop now at Macys.com! Valid 7/23 through 7/25!</offerdescription>
  <offerstartdate>2020-07-24</offerstartdate>
  <offerenddate>2020-07-26</offerenddate>
  <clickurl>https://click.synergy.com/fs-bin/click?id=ZZvk49eM&offerid=777210.100474695&type=3&subid=0</clickurl>
  <impressionpixel>https://ad.synergy.com/fs-bin/show?id=ZZvk49NAwbids=777210.100474695&type=3&subid=0</impressionpixel>
  <advertiserid>3184</advertiserid>
  <advertisername>cys.com</advertisername>
  <network id="1">US Network</network>
 </link>

My Code

from xml.dom import minidom
import urllib
import pandas as pd 
url = "http://couponfeed.synergy.com/coupon?token=xxxxxxxxx122b&network=1&resultsperpage=500"
xmldoc = minidom.parse(urllib.request.urlopen(url)) 

#itemlist = xmldoc.getElementsByTagName('clickurl')


df_cols = ["promotiontype","category","offerdescription", "offerstartdate", "offerenddate", "clickurl","impressionpixel","advertisername","network"]
rows = []

for entry in xmldoc.couponfeed:
    s_promotiontype = couponfeed.get("promotiontype","")
    s_category = couponfeed.get("category","")
    s_offerdescription = couponfeed.get("offerdescription", "")
    s_offerstartdate = couponfeed.get("offerstartdate", "")
    s_offerenddate = couponfeed.get("offerenddate", "")
    s_clickurl = couponfeed.get("clickurl", "")
    s_impressionpixel = couponfeed.get("impressionpixel", "")
    s_advertisername = couponfeed.get("advertisername","")
    s_network = couponfeed.get ("network","")
       
        
    rows.append({"promotiontype":s_promotiontype, "category": s_category, "offerdescription": s_offerdescription, 
                 "offerstartdate": s_offerstartdate, "offerenddate": s_offerenddate,"clickurl": s_clickurl,"impressionpixel":s_impressionpixel,
                 "advertisername": s_advertisername,"network": s_network})

out_df = pd.DataFrame(rows, columns=df_cols)


out_df.to_csv(r"C:\\Users\rai\Downloads\\merchants_offers_share.csv", index=False)

尝试简单的方法但我没有得到任何结果

import lxml.etree as ET 
import urllib

response = urllib.request.urlopen('http://couponfeed.synergy.com/coupon?token=xxxxxd39f4e5fe392a25538bb122b&network=1&resultsperpage=500')
xml = response.read()

root = ET.fromstring(xml)

for item in root.findall('.//item'):
    title = item.find('category').text
    print (title)

另一次尝试

from lxml import etree
import pandas as pd 
import urllib

    url = "http://couponfeed.synergy.com/coupon?token=xxxxxxd39f4e5fe392a25538bb122b&network=1&resultsperpage=500"
    xtree = etree.parse(urllib.request.urlopen(url)) 
    
    for value in xtree.xpath("/root/couponfeed/categories"):
        print(value.text)

另一种方法。

from simplified_scrapy import SimplifiedDoc, utils, req
# html = req.get('http://couponfeed.synergy.com/coupon?token=xxxxxxxxx122b&network=1&resultsperpage=500')
html = '''
<couponfeed>
 <TotalMatches>1459</TotalMatches>
 <TotalPages>3</TotalPages>
 <PageNumberRequested>1</PageNumberRequested>
 <link type="TEXT">
  <categories>
   <category id="1">Apparel</category>
  </categories>
  <promotiontypes>
    <promotiontype id="11">Percentage off</promotiontype>
   </promotiontypes>
   <offerdescription>25% Off Boys Quiksilver Apparel. Shop now at Macys.com! Valid 7/23 through 7/25!</offerdescription>
   <offerstartdate>2020-07-24</offerstartdate>
   <offerenddate>2020-07-26</offerenddate>
   <clickurl>https://click.synergy.com/fs-bin/click?id=Z&offerid=777210.100474694&type=3&subid=0</clickurl>
    <impressionpixel>https://ad.synergy.com/fs-bin/show?id=ZNAweM&bids=777210.100474694&type=3&subid=0</impressionpixel>
    <advertiserid>3184</advertiserid>
    <advertisername>cys.com</advertisername>
    <network id="1">US Network</network>
  </link>
 </couponfeed>
'''
doc = SimplifiedDoc(html)
df_cols = [
    "promotiontype", "category", "offerdescription", "offerstartdate",
    "offerenddate", "clickurl", "impressionpixel", "advertisername", "network"
]
rows = [df_cols]

links = doc.couponfeed.links  # Get all links
for link in links:
    row = []
    for col in df_cols:
        row.append(link.select(col).text)  # Get col text
    rows.append(row)

utils.save2csv('merchants_offers_share.csv', rows)  # Save to csv file

Result:

promotiontype,category,offerdescription,offerstartdate,offerenddate,clickurl,impressionpixel,advertisername,network
Percentage off,Apparel,25% Off Boys Quiksilver Apparel. Shop now at Macys.com! Valid 7/23 through 7/25!,2020-07-24,2020-07-26,https://click.synergy.com/fs-bin/click?id=Z&offerid=777210.100474694&type=3&subid=0,https://ad.synergy.com/fs-bin/show?id=ZNAweM&bids=777210.100474694&type=3&subid=0,cys.com,US Network

以下是更多示例：https://github.com/yiyedata/simplified-scrapy-demo/tree/master/doc_examples

删除最后一个空行

import io
with io.open('merchants_offers_share.csv', "rb+") as f:
    f.seek(-1,2)
    l = f.read()
    if l == b"\n":
        f.seek(-2,2)
        f.truncate()

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

xml

pandas

Python XML 解析和 getElementsByTagName 的相关文章

如何在python 2.7.8中将非英文字母的字典写入文件？

这是一个简单的例子 test location 北京 country 中国 the values are Chinese 在文件 test log 中 location 北京 country 中国在python 2 7 8中当我需要输出
将 2D Panda 的 DataFrame 列表转换为 3D DataFrame

我正在尝试创建一个将标签值保存到 2D DataFrame 的 Pandas DataFrame 这是我到目前为止所做的我正在使用读取 csv 文件pd read csv并将它们附加到列表中出于这个问题的目的让我们考虑以下代码 imp
self.__dict__.update(**kwargs) 的风格是好是坏？

在 Python 中假设我有一些类 Circle 它继承自 Shape Shape 需要 x 和 y 坐标此外 Circle 需要半径我希望能够通过执行类似的操作来初始化 Circle c Circle x 1 y 5 r 3 Cir
如何使用appium自动化Android手机后退按钮

我正在使用 Appium python 客户端库对 Android 上的混合移动应用程序进行测试自动化我无法找到任何方法来自动化或创建手势以使用电话后退按钮返回到应用程序的上一页有没有可以使用的驱动函数我尝试了 self dri
Pygooglevoice登录错误

另一个人问了这个问题但没有回复所以我再问一遍我正在尝试使用 pygooglevoice API 但是当我运行 SMS py 示例脚本时它给了我一个登录错误我已经安装了 Enthought python 我想也许我还需要安装其他东西
t /= d 是什么意思？ Python 和错误

t current time b begInnIng value c change In value d duration def easeOutQuad swing function x t b c d alert jQuery easi
使用 matplotlib 设置或固定二元分布值

I ve animated a bivariate gaussian distribution using matplotlib 我已经计算过这个distribution通过调整COV matrix来考虑特定的变量我可以提供有关此过程的更
保存游戏最高分？

我使用 pygame 在 python 中制作了一个非常简单的游戏分数取决于玩家达到的级别我将级别作为变量称为score 我想在游戏开始或结束时显示顶级我会更乐意显示多个分数但我见过的所有其他线程都太复杂我无法理解所以请保持简单
如何使用 selenium 获取 javascript 结果？

我有以下代码 from selenium import selenium selenium selenium localhost 4444 chrome http some site com selenium start sel selen
尝试将 cuda 与 pytorch 一起使用时出现运行时错误 999

我为我的 Geforce 2080 ti 安装了 Cuda 10 1 和最新的 Nvidia 驱动程序我尝试运行一个基本脚本来测试 pytorch 是否正常工作但出现以下错误 RuntimeError cuda runtime erro
十亿笑 XML DoS 攻击是如何运作的？

gt
执行许多插入重复键更新错误：未使用所有参数

所以我一直在尝试使用 python 2 7 15 使用 mysql connector 执行此查询但由于某种原因它似乎不起作用并且总是返回错误并非所有参数都被使用表更新有一个主键即 ID 这是我尝试运行此 SQL 的查询 sql
Python 中的颜色处理

对于我的聚类 GUI 我目前对聚类使用随机颜色因为我事先不知道最终会得到多少个聚类在 Python 中这看起来像 import random def randomColor return random random random ra
如何从 IDLE 命令行运行 Python 脚本？

在 bash shell 中我可以使用 bash 或 source 手动调用脚本我可以在 Python IDLE 的交互式 shell 中做类似的事情吗我知道我可以转到文件 gt gt 打开模块然后在单独的窗口中运行它但这很麻烦
对 Python 列表元素进行分组

我有一个 python 列表如下所示 my list 25 1 0 65 25 3 0 63 25 2 0 62 50 3 0 65 50 2 0 63 50 1 0 62 我想根据以下规则对它们进行排序 1 gt 0 65 0 62 l
Pandas：按日历周分组，然后绘制真实日期时间的分组条形图

EDIT 我找到了一个非常好的解决方案并将其发布在下面作为答案结果将如下所示您可以为此问题生成一些示例数据 codes list ABCDEFGH dates pd Series pd date range 2013 11 01 201
设置字符串中单词或字符数的限制

假设我有一个字符串元素列表 wordlist hi what s up home diddle mc doo Oh wise master kakarot hello have a da 我希望列表中的每个元素最多包含 3 个单词或 20
重新安装后使用 pandas dataframes 时出现问题

我已经重新安装了 Python 和 Anaconda 现在面临以下问题在我将 pkl 文件加载到数据帧并尝试查看该文件后如下所示 df pd read pickle example pkl df 我收到错误 AttributeErr
将 .parquet 编码为 io.Bytes

目标将 Parquet 文件上传到 MinIO 这需要将文件转换为字节我已经能够做到这一点了 csv json and txt bytes data to csv encode utf 8 bytes json dumps self d
如何继承并重写 django 模型类来创建 listOfStringsField？

我想为 django 模型创建一个新类型的字段它基本上是一个 ListOfStrings 因此在您的模型代码中您将具有以下内容模型 py from django db import models class ListOfString

随机推荐

如何通知父视图控制器模态视图控制器中更改的屏幕方向？

我在纵向模式下在 UISplitViewController 上方呈现一个模式视图控制器现在我将 iPad 旋转到横向模式并关闭模态视图控制器 UISplitViewController 似乎没有收到有关方向更改的通知分割视图控制器的
caret 包中的 createGrid 函数 - 它被删除了吗？

我在用着caretR 版本 3 0 2 中的包版本 6 0 24 功能createGrid实际上被删除了在caret版本 5 17 7 保留该功能功能创建网格已从版本 6 0 24 中删除 http cran r project or
在 Kubernetes cron 作业中运行的应用程序无法连接到同一 Kubernetes 集群中的数据库

我有一个 Kubernetes 集群运行 PostgreSQL 数据库 Grafana 仪表板和一个在 Kubernetes 内每小时运行的 Python 单运行应用程序构建为 Docker 映像 CronJob 见下面的清单此外这
如何检查字符串是否包含字母表中的任何字母？

检查字符串是否包含字母表中的任何字母的最佳纯 Python 实现是什么 string 1 555 555 5555 string 2 555 555 5555 ext 5555 Where string 1会回来False因为其中没有字母表
循环分割大数据帧并在 R 中写入多个 CSV 文件 [重复]

这个问题在这里已经有答案了我有一个包含 2500 万行的文件需要根据因子级别将其拆分为更小的文件我创建了一个数据框来包含不同的因子级别并编写了一个循环来执行一些操作并写出一个csv 数据看起来像这样 Country Col2 Cod
在 WinForms 线程上使用 CoInitializeEx

我正在为 DSLR 相机开发一个 SDK 其中包含以下说明开发Windows应用程序的注意事项创建应用程序时在 Windows 下运行的每个程序都需要 COM 初始化线程以便从主线程以外的线程访问相机线创建用户线程并从中访问相机
两个或多个带进度的前台通知在更新其进度时相互替换

我有一项服务将在前台运行上传任务然后在通知中显示进度由于用户可能会使用不同的 id 请求多次上传因此将运行两个或多个前台服务一切正常但我想要的是使用此代码显示所有任务的通知和进度 NotificationCompat Builde
使用关联实体的正确方法是什么？

这是描述绘制 Poke Hospital 的实体关系图其中提供为神奇宝贝提供医疗服务每个神奇宝贝都会与其中一位护士乔伊有个约会在除了记录每个神奇宝贝的名称类型和训练师之外系统需要跟踪多种类型的疾病诊断为神奇宝贝在预约期间
是否可以避免实现文件中重复类名？

有没有办法避免Graph 在实现文件中重复但仍然将类拆分为标头实现如头文件 ifndef Graph H define Graph H class Graph public Graph int n void printGraph v
谷歌云端硬盘托管 URL 发生变化

我开发了一个网络应用程序使用谷歌驱动器作为托管平台如下所述 https support google com drive answer 2881970 hl en 当用户访问时应用程序一直运行正常但昨天它开始将该地址重定向到 b21
如何获取两个地点之间的行驶距离？

我在我的应用程序中使用 GoogleMapv2 api 我想绘制一条从源到目的地的多边形线并在地图活动上显示旅行时间和距离但我无法找到它请帮我我的代码片段在这里 public class NavigationActivity ext
为什么新的网络版 Dropbox 可以在不刷新页面的情况下更改 URL？ [复制]

这个问题在这里已经有答案了可能的重复如何在不离开页面的情况下更改浏览器中显示的 URL 如何像 GitHub 一样进行出色的无刷新页面更改更改浏览器 URL 和页面内容无需重新加载且无需使用片段太神奇了新的 Dropbox 网页
Win32 和 Win64 机器中的 SendInput 按键

我在 xp 32 位下使用 sendInput 使用 web 服务来推送当前焦点窗口的 F 5 现在在 Vista win64 下我无法获得这个结果有些文章指出使用 4 位或 8 位的 uint 问题但这并不能通过差异编译和 Field
求二叉树的直径

我试图在java中找到二叉树的直径包含最大节点数的树中任意两个节点之间的路径长度我的代码片段 public int diametre Node node int d if node null return 0 lh diametre n
使用正确的 pack:// URI 格式

我有一个 WPF 类库其中包含一个包含图像的文件夹图像在 WPF 应用程序中我不会使用以下方式引用该文件夹中的图像
在哪里可以找到要添加为参考的 Microsoft.VisualStudio.ExtensionManager？

我想在使用 VS2013 SDK 安装的 VS2013 中的控制台应用程序上添加以下引用 Microsoft VisualStudio ExtensionManager Microsoft VisualStudio ExtensionMan
Xcode 6.1 文件中缺少所需的架构 X86_64

在 Xcode 6 1 中我收到 iPhone 6 iPhone 5s iOS 7 1 的错误其中显示 Undefined symbols for architecture x86 64 OBJC CLASS ClientAuthent
如何在画布上制作弹跳球的动画

你好我刚刚开始编写 Java 和 HTML 等代码所以有时我会遇到困难因此我加入 StackOverflow 寻求您的帮助请对我好一点我正在尝试使用动画setInterval 并绘制方法来创建一个弹跳球该球在每帧中移动多个像素
OPENCV waitKey()方法返回类型

我正在尝试使用在线教程学习 OPENCV 用于图像处理项目 opencv 文档说 waitKey 返回一个 int 这应该是按下的键的 ASCII 值但大多数在线教程都使用以下代码可以正常编译和运行 if char 27 waitKey
Python XML 解析和 getElementsByTagName

我试图解析以下 xml 并围绕我的业务需求获取我感兴趣的特定标签我想我做错了什么不知道如何解析我所需的标签想要利用 pandas 以便我可以进一步过滤细节学弟学妹们多多支持我的 XML 来自 URI

Python XML 解析和 getElementsByTagName

Python XML 解析和 getElementsByTagName 的相关文章

随机推荐

热门标签