Feedparser 到数据框不输出所有列

2024-04-15

我从 feedparser 解析 URL 并尝试获取所有列，但我没有将所有列作为输出，不确定问题出在哪里。如果执行下面的命令。我没有获得几列的数据，但数据确实存在，您可以在浏览器中查看。

my code

import feedparser
import pandas as pd 

xmldoc = feedparser.parse('http://www.ebay.com/rps/feed/v1.1/epnexcluded/EBAY-US')
df_cols = [
    "title", "url", "endsAt", "image225","currency"
    "price", "orginalPrice", "discountPercentage", "quantity", "shippingCost","dealUrl"
]
rows = []

for entry in xmldoc.entries:
    s_title = entry.get("title","")
    s_url = entry.get("url", "")
    s_endsAt = entry.get("endsAt", "")
    s_image225 = entry.get("image225", "")
    s_currency = entry.get("currency", "")
    s_price = entry.get("price","")
    s_orginalPrice = entry.get("orginalPrice","")
    s_discountPercentage = entry.get ("discountPercentage","")
    s_quantity = entry.get("quantity","")
    s_shippingCost = entry.get("shippingCost", "")
    s_dealUrl = entry.get("dealUrl", "")#.replace('YOURUSERIDHERE','2427312')
       
        
    rows.append({"title":s_title, "url": s_url, "endsAt": s_endsAt, 
                 "image225": s_image225,"currency": s_currency,"price":s_price,
                 "orginalPrice": s_orginalPrice,"discountPercentage": s_discountPercentage,"quantity": s_quantity,
                 "shippingCost": s_shippingCost,"dealUrl": s_dealUrl})

out_df = pd.DataFrame(rows, columns=df_cols)

out_df

尝试过这个，但这并没有给我任何数据，只有几列（我想是标题）

import lxml.etree as ET 
import urllib

response = urllib.request.urlopen('http://www.ebay.com/rps/feed/v1.1/epnexcluded/EBAY-US')
xml = response.read()

root = ET.fromstring(xml)
for item in root.findall('.*/item'):
       
    df = pd.DataFrame([{item.tag: item.text if item.text.strip() != "" else item.find("*").text
                       for item in lnk.findall("*") if item is not None} 
                       for lnk in root.findall('.//item')])
                       
df

可以如下迭代数组中的 URL 偏移量并将结果输出到 PD。当我尝试这样做时，它确实可以部分解决问题（即，我缺少一些元素，导致此错误AttributeError: object has no attribute 'price', shipping cost etc.,如果元素为 null，我们如何处理？

my code

 import feedparser
    import pandas as pd
    #from simplified_scrapy import SimplifiedDoc, utils, req
    getdeals = ['http://www.ebay.com/rps/feed/v1.1/epnexcluded/EBAY-US?limit=200',
            'http://www.ebay.com/rps/feed/v1.1/epnexcluded/EBAY-US?limit=200&offset=200',
            'http://www.ebay.com/rps/feed/v1.1/epnexcluded/EBAY-US?limit=200&offset=400']
    
    posts=[]
    for urls in getdeals:
        feed = feedparser.parse(urls)
        for deals in feed.entries:
            print (deals)
            posts.append((deals.title,deals.endsat,deals.image225,deals.price,deals.originalprice,deals.discountpercentage,deals.shippingcost,deals.dealurl))
    df=pd.DataFrame(posts,columns=['title','endsat','image2255','price','originalprice','discountpercentage','shippingcost','dealurl'])
    df.tail()

另外，类似地如何循环多个 JSON 响应

 url= ["https://merchants.apis.com/v4/publisher/159663/offers?country=US&limit=2000",
"https://merchants.apis.com/v4/publisher/159663/offers?country=US&offset=2001&limit=2000"]
    
    
    response = requests.request("GET", url, headers=headers, params=querystring)
    response = response.json()
    
    
    name = []
    logo = []
    date_added = []
    description = []
    for i in range(len(response['offers'])):
        name.append(response['offers'][i]['merchant_details']['name'])
        logo.append(response['offers'][i]['merchant_details']['metadata']['logo'])
        date_added.append(response['offers'][i]['date_added'])
        description.append(response['offers'][i]['description'])
         try:
            verticals.append(response['offers'][i]['merchant_details']['verticals'][0])
        except IndexError:
            verticals.append('NA')
        pass
        
    data1 = pd.DataFrame({'name':name,'logo':logo,'verticals':verticals, 'date_added':date_added,'description':description})

另一种方法。

import pandas as pd
from simplified_scrapy import SimplifiedDoc, utils, req

getdeals = ['http://www.ebay.com/rps/feed/v1.1/epnexcluded/EBAY-US?limit=200',
            'http://www.ebay.com/rps/feed/v1.1/epnexcluded/EBAY-US?limit=200&offset=200',
            'http://www.ebay.com/rps/feed/v1.1/epnexcluded/EBAY-US?limit=200&offset=400']
    
posts=[]
header = ['title','endsAt','image255','price','originalPrice','discountPercentage','shippingCost','dealUrl']
for url in getdeals:
    try: # It's a good habit to have try and exception in your code.
        feed = SimplifiedDoc(req.get(url))
        for deals in feed.selects('item'):
            row = []
            for h in header: row.append(deals.select(h+">text()")) # Returns None when the element does not exist
            posts.append(row)
    except Exception as e:
        print (e)
        
df=pd.DataFrame(posts,columns=header)
df.tail()

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

DataFrame

Feedparser 到数据框不输出所有列的相关文章

env: python: 使用 Xcode 构建应用程序时没有这样的文件或目录

当我在 Xcode 在 MacOS 12 3 上中构建运行存档我的应用程序时遇到此错误 env python No such file or directory Command Ld failed with a nonzero e
导入错误：无法导入名称“PandasError”

我对在 Mac 上运行的 Python 3x 非常陌生当前使用 python 金融的 senddex 教程尝试运行以下脚本 import datetime as dt import matplotlib pyplot as plt fr
Python 的“platform.mac_ver()”报告不正确的 MacOS 版本

我正在使用Pythonplatform module https docs python org 3 library platform html要识别 MacOS 版本如下所示 import platform print platform
argparse 更改参数的定义

我按如下方式设置参数解析器 parser argparse ArgumentParser parser add argument point help enter a point e g 2 3 4 parser parse args po
将 pandas 多索引数据帧转换为嵌套字典

我有一个 pandas 多索引数据框我试图将其输出为嵌套字典 create the dataset data clump thickness 0 0 274 0 0 1 19 0 1 0 67 0 1 1 12 0 2 0 83 0 2
Selenium 上的切换窗口

我在 Python 中使用 Selenium 和 PhantomJS 我需要打开一个新窗口并控制它出于测试目的我这样做 from selenium import webdriver driver webdriver PhantomJS
python matplotlib 使用按钮事件添加和删除图形中的文本

我试图在调用button press event 时将文本添加到鼠标指针位置的图形中并在调用button release event 时将其删除我已成功添加文本但无法将其删除这是我使用的代码的一部分 def onclick even
带有redirect_uri的social-auth-app-django Facebook后端状态

我知道我的问题听起来像是重复的但我到处寻找但没有找到任何解决方案我正在努力为我的 django web 应用程序实现社交登录到目前为止谷歌推特和雅虎登录均按预期工作但facebook总是给出以下错误 URL 被阻止此重定向失败
Django - 该进程无法访问该文件，因为该文件正在被另一个进程使用

我正在尝试在 Windows 10 上运行 Django 我是 Django 的新手我正在使用 Compressor Toolkit 我的问题是我可以运行 manage py 但本地主机说 base html 第 9 行出错该进程无法访
将 Selenium 与 PyCharm CE 结合使用

我正在尝试将 Selenium 与 PyCharm CE 一起使用我已经使用 pip install Selenium 安装了 Selenium 并且可以通过终端使用它但是当我尝试将它与 PyCharm 一起使用时出现导入错误 Imp
我无法设置顶级标题

我想为 TopLevel 设置标题但 TopLevel 显示 Root 的标题我认为我的下一个脚本与 TkInter 文档中的示例相对应但给了我不好的结果你能解释一下为什么我的设置master title 顶部 in 应用程序顶部
Pandas如何将多个函数应用于数据框

有没有办法像 DataFrameGroupBy agg 函数那样将函数列表应用于 DataFrame 中的每一列我发现了一个丑陋的方法来做到这一点 df pd DataFrame dict one np random uniform 0
如何在 PyTorch 中对子集使用不同的数据增强

如何针对不同的情况使用不同的数据增强转换 Subset在 PyTorch 中吗例如 train test torch utils data random split dataset 80000 2000 train and test将具
在 grpc python 中处理异步流请求

我试图了解如何使用双向流处理 grpc api 使用 Python API 假设我有以下简单的服务器定义 syntax proto3 package simple service TestService rpc Translate stre
Django admin.py 未知命令：'collectstatic'

我已经从 django 1 2 7 升级到 django 1 5 1我正在使用 python 2 6 6当我尝试跑步时python manage py collectstatic i get 未知命令 collectstatic 从我的设置
了解字典的深度

假设我们有这个字典 d a 1 b c 了解嵌套的最直接方法是什么depth of it 您需要创建一个递归函数 gt gt gt def depth d if isinstance d dict return 1 max map dept
gstreamer 中的无缝视频循环

我正在尝试使用 gstreamer 循环播放视频它是 python 绑定第一次尝试是hook EOSmessage并为管道生成搜索消息 import gi gi require version Gst 1 0 from gi repos
有没有比 Python 内置 == 运算符更快的方法来测试两个列表是否具有完全相同的元素？

如果我有两个列表每个列表有 800 个元素长并填充整数有没有比使用内置元件更快的方法来比较它们具有完全相同的元件如果没有则短路操作员 a 6 2 3 88 54 486 b 6 2 3 88 54 486 a b gt gt gt
使用 pyspark 计算所有可能的单词对

我有一个文本文档我需要找到整个文档中重复单词对的可能数量例如我有下面的word文档该文档有两行每行用分隔文档 My name is Sam My name is Sam My name is Sam My name is Sa
Pandas：如何删除以 nan 作为列名的多个列？

根据标题这是一个可重现的示例 raw data x this that this that this np nan np nan np nan np nan np nan np nan y np nan np nan np nan np

随机推荐

如何过滤波斯语字符的输入？ [复制]

这个问题在这里已经有答案了我想要仅针对波斯语的过滤器输入我认为正则表达式filter input 是个好主意但是我不知道如何解决这个问题我已经搜索过但我没有找到类似 p Arabic 的波斯语或波斯语字符另一方面可以使用Uni
如何在 Unity 中创建类似 illustrator/photoshop 的钢笔工具来创建贝塞尔曲线

我需要创建复杂的分段贝塞尔曲线因此我想更新代码以创建类似 illustrator photoshop 的钢笔工具贝塞尔曲线该视频展示了如何pentool 的行为 https youtu be H pfdq qG28 t 25 请注意我
无法获取源的真实路径 - Xcode、SFML、C++

我是 SFML 新手并遵循 SFML 2 5 的 SFML 和 Xcode 教程来尝试构建和运行基本程序将 Frameworks 的内容复制到 Library Frameworks和 extlibs 的内容 Library Framew
Python 的 SignalR 替代方案

Python 世界中 SignalR 的替代方案是什么准确地说我在Windows 8上使用tornado和python 2 7 6 我发现sockjs龙卷风 https github com MrJoes sockjs tornado
Swift Playground 中的弱引用无法按预期工作

我一直在关注弱引用示例中级 Swift WWDC 会议在操场上我将代码稍作修改如下 class Apartment let address Int init address Int self address address weak va
如何在不使用 extern crate 的情况下导入 Rust 2018 中的所有宏、派生宏和过程宏？

我正在尝试铁锈版 2018 https rust lang nursery github io edition guide rust 2018 index html 在 Rust 2015 中你使用 macro use extern cra
IEnumerable 如何在后台工作

我正在徘徊于更深入的功能IEnumerable
如何在 Java 中创建安全的随机 AES 密钥？

使用标准 JDK 在 Java 中生成安全随机 AES 密钥的推荐方法是什么在其他帖子中我发现了这一点但是使用SecretKeyFactory可能是一个更好的主意 KeyGenerator keyGen KeyGenerator g
如何将文件从 JavaScript 发送到 Java WebService

我有一个使用 Cordova 的 HTML5 应用程序您可以从您的设备上传文件图像和视频我必须将用户上传的文件发送到Java WebService 然后将其上传到服务器我需要帮助因为我无法实现我想要的我尝试了在互联网上找到的几种
在方法中使用索引签名 - Typescript 3.5

interface Keys key string any const obj Keys trimDescription text string length number string return text length gt leng
Swift 中的阶段 1 和阶段 2 初始化

这是 Apple Swift 文档的副本一旦超类的所有属性都有初始值它的内存被认为已完全初始化并且阶段 1 已完成超类的指定初始化器现在有机会进一步自定义实例尽管不是必须的一旦超类的指定初始化器完成子类的指定初始化器可以执行
使用 jQuery AJAX 发送多个数据参数

我正在向 php 文件发送 ajax 请求如下所示 function checkDB code userid ajax type POST url profile check code php data code code userid
iOS UITextField Swift 中的下划线样式

我添加了这张用户界面登录图像希望您能看到请注意除了底部的线条之外文本字段是透明的我需要输入什么代码才能产生这种效果我可以将必要的信息放入用户定义的运行时属性中吗创建一个子类UITextField如下所示只需在故事板中将此
克隆存储库后，Azure DevOps 强制 core.hooksPath

我尝试实施客户端 git hooks到 azure devops git 存储库我添加了一个 githooks目录到根目录并实施pre commit钩我提交所有内容并将其推送到存储库但当然只有当我执行时钩子才会激活 git con
使用 Node.js 和 mongo 设置单例连接

以前我使用 mongodb 和 php 来查询我使用单例的数据库这样我只实例化连接一次然后重复使用它 class MDB protected static instance public static function use if s
如何在 Cucumber-JVM 中明确匹配这些步骤？

有什么方法可以明确匹配以下步骤吗 And I should have 2 alerts And I should have 2 alerts with param 71 我将它们实现为 And I should have d alerts
使用 file.show 在 R studio 中打开 PDF

我正在制作一个在 Swirl 中在 R 中运行的 R 教程我正在尝试在 R 中打开特定的 PDF 文件我在用 file show paste getwd cv pdf sep title some title 但显示是这样的它不显示
Growl 通知：如何从网站推送 Growl 通知？

我想知道如何将桌面 Growl 通知从我的 Web 应用程序推送给我的 Web 应用程序的用户如果可能的话我想使用 javascript 否则像 Ruby 或 PHP 这样的语言将是我的第二选择您以前实施过类似的事情吗如何做呢我弄
从列表中删除 nan - Python

我试图从列表中删除 nan 但它拒绝删除我尝试过 np nan 和 nan 这是我的代码 ztt for i in z if i nan ztt append i ztt or ztt for i in z if i np nan ztt
Feedparser 到数据框不输出所有列

我从 feedparser 解析 URL 并尝试获取所有列但我没有将所有列作为输出不确定问题出在哪里如果执行下面的命令我没有获得几列的数据但数据确实存在您可以在浏览器中查看 my code import feedparser i

Feedparser 到数据框不输出所有列

Feedparser 到数据框不输出所有列 的相关文章

随机推荐

热门标签

Feedparser 到数据框不输出所有列的相关文章