根据Python列表从yaml文件中检索数据

2023-11-26

我在 ipython 工作；我有一个 Yaml 文件和一个与我的 Yaml 文件相对应的 [thomas] id 列表（thomas: - 文件下第三行）。下面只是该文件的一小部分。完整的文件可以在这里找到（https://github.com/108michael/congress-legislators/blob/master/legislators-historical.yaml)

   - id:
    bioguide: C000858
    thomas: '00246'
    lis: S215
    govtrack: 300029
    opensecrets: N00002091
    votesmart: 53288
    icpsr: 14809
    fec:
    - S0ID00057
    wikipedia: Larry Craig
    house_history: 11530
  name:
    first: Larry
    middle: E.
    last: Craig
  bio:
    birthday: '1945-07-20'
    gender: M
    religion: Methodist
  terms:
  - type: rep
    start: '1981-01-05'
    end: '1983-01-03'
    state: ID
    district: 1
    party: Republican
  - type: rep
    start: '1983-01-03'
    end: '1985-01-03'
    state: ID
    district: 1
    party: Republican

我想解析该文件，对于列表中与 [thomas:] 中的 Id 相对应的每个 id，我想检索以下内容： [fec]: （其中可能不止一个，我需要全部） [姓名：] [第一个：] [中间：] [最后一个：]； [简介：] [生日：]； [术语：]（可能有多个术语，我需要所有术语）[类型：] [开始：] [状态：] [一方：]。最后，还可能存在 fec 数据不可用的情况。

1）我应该如何存储数据？我对 Python（我的第一种编程语言）还比较陌生，并且不确定如何存储数据。直觉上，我会说字典；然而，最重要的是易于访问和数据检索。以前，我将类似的嵌套数据存储为 csv。这个方法看起来有点笨重。如果我能（从我拥有的托马斯 ID 中）制作一个字典（我正在检索的数据）列表，这似乎是理想的选择。

2）我不确定如何设置 for/while 语句，以便我只检索与我的 thomas id 列表相对应的数据。

我开始编写我期望的将信息写入 CSV 的代码：

import pandas as pd
import yaml
import glob
import CSV
df = pd.concat((pd.read_csv(f, names=['date','bill_id','sponsor_id']) for f in glob.glob('/home/jayaramdas/anaconda3/df/s11?_s_b')))

outputfile = open('sponsor_details', 'W', newline='')
outputwriter = csv.writer(outputfile)

df = df.drop_duplicates('sponsor_id')
sponsor_list = df['sponsor_id'].tolist()

with open('legislators-historical.yaml', 'r') as f:
    data = yaml.load(f)

    for sponsor in sponsor_list:
        where sponsor == data[0]['thomas']:
            x = data[0]['thomas']
            a = data[0]['name']['first']
            b = data[0]['name']['middle']
            c = data[0]['name']['last']
            d = data[0]['bio']['gender']
            e = data[0]['bio']['religion']

            for fec in data[0]['id']:
                c = fec.get('fec')    

                for terms in data[0]['id']:
                    t = terms.get('type')  
                    s = terms.get('start')  
                    state = terms.get('state')
                    p = terms.get('party')

    outputwriter.writerow([x, a, b, c, d, e, c, t, s, state, p])
    outputfile.flush()

我收到以下错误：

---------------------------------------------------------------------------
KeyError                                  Traceback (most recent call last)
<ipython-input-48-057d25de7e11> in <module>()
     15 
     16     for sponsor in sponsor_list:
---> 17         if sponsor == data[0]['thomas']:
     18             x = data[0]['thomas']
     19             a = data[0]['name']['first']

KeyError: 'thomas'

我想你可能会尝试解析 YAML 并将其加载到数据框中，正常化 it:

import pandas as pd
from yaml import safe_load

with open('legislators-historical.yaml', 'r') as f:
    df = pd.json_normalize(safe_load(f))

print(df.head())

Output:

  bio.birthday bio.gender bio.religion id.bioguide       id.fec  id.govtrack  \
0   1943-12-02          M   Protestant     A000109  [S6CO00168]       300003
1   1745-04-02          M          NaN     B000226          NaN       401222
2   1742-03-21          M          NaN     B000546          NaN       401521
3   1743-06-16          M          NaN     B001086          NaN       402032
4   1730-07-22          M          NaN     C000187          NaN       402334

   id.house_history  id.icpsr id.lis id.opensecrets id.thomas  id.votesmart  \
0              8410     29108   S250      N00009082     00011         26783
1               NaN       507    NaN            NaN       NaN           NaN
2              9479       786    NaN            NaN       NaN           NaN
3             10177      1260    NaN            NaN       NaN           NaN
4             10687      1538    NaN            NaN       NaN           NaN

     id.wikipedia  name.first name.last name.middle  \
0    Wayne Allard       Wayne    Allard          A.
1             NaN     Richard   Bassett         NaN
2             NaN  Theodorick     Bland         NaN
3   Aedanus Burke     Aedanus     Burke         NaN
4  Daniel Carroll      Daniel   Carroll         NaN

                                               terms
0  [{'party': 'Republican', 'type': 'rep', 'state...
1  [{'party': 'Anti-Administration', 'type': 'sen...
2  [{'end': '1791-03-03', 'district': 9, 'type': ...
3  [{'end': '1791-03-03', 'district': 2, 'type': ...
4  [{'end': '1791-03-03', 'district': 6, 'type': ...

UPDATE:

以下版本将过滤您的输入数据，以便仅处理包含“thomas”和“fec”的记录：

import pandas as pd
from yaml import safe_load

def read_yaml(fn):
    with open(fn, 'r') as fi:
        return safe_load(fi)

def filter_data(data):
    result_data = []
    for x in data:
        if 'id' not in x:   continue
        if 'fec' not in x['id']:    continue
        if 'thomas' not in x['id']: continue
        result_data.append(x)
    return result_data


fn = 'aaa.yaml'


df = pd.json_normalize(filter_data(read_yaml(fn)), 'terms', [['id', 'fec'], ['id', 'thomas']])
print(df.head())

df.to_csv('out.csv')

Output:

   class  district         end       party       start state type  \
0    NaN         4  1993-01-03  Republican  1991-01-03    CO  rep
1    NaN         4  1995-01-03  Republican  1993-01-05    CO  rep
2    NaN         4  1997-01-03  Republican  1995-01-04    CO  rep
3      2       NaN  2003-01-03  Republican  1997-01-07    CO  sen
4      2       NaN  2009-01-03  Republican  2003-01-07    CO  sen

                        url id.thomas     id.fec
0                       NaN     00011  S6CO00168
1                       NaN     00011  S6CO00168
2                       NaN     00011  S6CO00168
3                       NaN     00011  S6CO00168
4  http://allard.senate.gov     00011  S6CO00168

PS，如您所见，这将重复您的行（请参阅：id.thomas and id.fec）以便可以将其显示为数据框

UPDATE2

您可能还想将“id.fec”中的列表转换为列，但我会在附加数据框中执行此操作：

df_fec = df['id.fec'].apply(pd.Series)

print(df_fec.head())

Output:

           0          1
0  S8AR00112  H2AR01022
1  S8AR00112  H2AR01022
2  S8AR00112  H2AR01022
3  S8AR00112  H2AR01022
4  S6CO00168        NaN

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

根据Python列表从yaml文件中检索数据的相关文章

高效地将大型 Pandas 数据帧写入磁盘

我正在尝试找到使用 Python Pandas 高效地将大型数据帧 250MB 写入磁盘或从磁盘写入的最佳方法我已经尝试了所有方法Python 数据分析但表现却非常令人失望这是一个更大项目的一部分该项目探索将我们当前的分析数据管理
minAreaRect OpenCV 返回的裁剪矩形 [Python]

minAreaRectOpenCV 中返回一个旋转的矩形如何裁剪矩形内图像的这部分 boxPoints返回旋转矩形的角点的坐标以便可以通过循环框内的点来访问像素但是在 Python 中是否有更快的裁剪方法 EDIT See code在
Python设置1和True的解释

在 IPython 3 交互式 shell 中 In 53 set2 1 2 True hello In 54 len set2 Out 54 3 In 55 set2 Out 55 hello True 2 是因为 1 和 True 得到
如何检索分配给 Django 中的组的所有权限

我正在执行一项任务来检索分配给 Django 中的组的一组权限我可以使用以下代码获取创建的组但无法使用它来获取分配给它们的权限 from django contrib auth models import Group Permissio
Django 查询：“datetime + delta”作为表达式

好吧我的问题如下假设我有下一个模型这是一个简单的情况 class Period models Model name CharField field specs here start date DateTimeField field s
如何将 numpy rearray 的子集转换为连续数组？

我有一个recarray来自读取 csv 文件我有兴趣将列的子集转换为连续浮点数组我想避免将它们转换为列表或将它们一一堆叠我尝试了中的建议https stackoverflow com a 11792956 https stackov
如何调试 numpy 掩码

这个问题与this one https stackoverflow com q 73672739 11004423 我有一个正在尝试矢量化的函数这是原来的函数 def aspect good angle float planet1 goo
样本（）和r样本（）有什么区别？

当我从 PyTorch 中的发行版中采样时两者sample and rsample似乎给出了类似的结果 import torch seaborn as sns x torch distributions Normal torch tens
从字典中绘制直方图

我创建了一个dictionary计算 a 中出现的次数list每个键的内容我现在想绘制其内容的直方图这是我想要绘制的字典的内容 1 27 34 1 3 72 4 62 5 33 6 36 7 20 8 12 9 9 10 6 11 5
Python sys.modules 包含尚未导入的模块

我试图了解加载的模块与导入的模块之间的区别如果有的话我正在使用 Python 2 7 3 并且只是从命令行运行 Python 如果我执行 import sys sys modules 我得到一个列表其中包括os 例如文档说sys m
获取 int() 参数必须是字符串或数字，而不是“Column”- Apache Spark

如果我使用以下代码我会收到此异常 int argument must be a string or a number not Column df df withColumn FY F when df ID substr 5 2 isin
预测测试图像时出现错误 - 无法重塑大小数组

我正在尝试使用 TensorFlow 和 Keras 在 Python 中进行图像识别并且我已经关注了下面的博客 https stackabuse com image recognition in python with tensorfl
将 Python Selenium 输出写入 Excel

我编写了一个脚本来从在线网站上抓取产品信息目标是将这些信息写入 Excel 文件由于我的Python知识有限我只知道如何在Powershell中使用Out file导出但结果是每个产品的信息都打印在不同的行上我希望每种产品都有一条
在 for 循环中访问 itertools 产品的元素

我有一个列表列表是附加 itertools 产品的一些其他结果的结果我想要的是能够使用 for 循环访问列表列表中列表的每个元素但我无法访问所有元素我只能访问最后一个列表的元素结果是一个非常巨大的列表列表例如 1 2 4 3 6
通过新数据更新绘图，而不是在 Jupyter 笔记本中制作新绘图

我有一些问题希望你能帮我解决我需要使用下拉小部件创建交互式绘图我可以在其中选择并绘制感兴趣的数据我通过以下方式做到这一点 import plotly graph objects as go import ipywidgets as
如何使用logging.conf文件使用RotatingFileHandler将所有内容记录到文件中？

我正在尝试使用RotatingHandler用于 Python 中的日志记录目的我将备份文件保留为 500 个这意味着我猜它将创建最多 500 个文件并且我设置的大小是 2000 字节不确定建议的大小限制是多少如果我运行下面的代码
在不同的 GPU 上同时训练多个 keras/tensorflow 模型

我想在 Jupyter Notebook 中同时在多个 GPU 上训练多个模型我正在使用 4GPU 的节点上工作我想将一个 GPU 分配给一个模型并同时训练 4 个不同的模型现在我通过例如为一台笔记本选择 GPU import
为什么我的 PyGame 应用程序根本不运行？

我有一个简单的 Pygame 程序 usr bin env python import pygame from pygame locals import pygame init win pygame display set mode 400
当训练和测试的特征数量不同时，如何处理生产环境中的One-Hot Encoding？

在做某些实验时我们通常在 70 上进行训练在 33 上进行测试但是当您的模型投入生产时会发生什么可能会发生以下情况训练集 Ser Type Of Car 1 Hatchback 2 Sedan 3 Coupe 4 SUV 经过
正则表达式 - 匹配不包含字符串的模式

我对正则表达式很陌生并且一直在寻找方法来做到这一点但没有成功给定一个字符串我想删除以 abc 开头以 abc 结尾且中间不包含 abc 的任何模式如果我做 abc abc abc 它将匹配以 b 开头以 abc 结尾并且中间包

随机推荐

Java Math.cos() 方法未按预期返回 0

在 Windows 7 PC 上使用 Java 不确定这是否重要并对应该返回 0 如 pi 2 的值调用 Math cos 而不是返回小值但除非我误解否则小值是与零相比远大于 1 ulp Math cos Math PI 2 6 12
使用 jQuery 确定 Android 上的长按（长按、轻按按住）

我已经能够成功播放使用 jQuery 和 HTML 页面在 Android 上实现 touchstart touchmove 和 touchend 事件现在我想看看确定长按事件的技巧是什么即点击并按住 3 秒我似乎还无法弄清楚这一点
如何使用 Backbone.Marionette 处理嵌套的 CompositeView？

我正在使用 Backbone 进入更大规模的数据结构并且遇到了通过 CompositeViews 很好地表示数据的情况也就是说 CollectionView 周围添加了附加内容例如标题按钮等然而我在将 CompositeVie
如何创建可以从以编程方式创建的按钮调用的 Segue？

在 Swift 中我使用以下方法以编程方式创建了一个按钮 var button UIBarButtonItem title Tableau style Plain target self action tabBarTableauClick
如何使用 JDBC 或 Hibernate 获取当前数据库事务 id？

我在谷歌上查了一下但找不到任何相关的东西基本上我想掌握长时间运行的事务现在我经历information schema INNODB TRX或者看看输出show engine innodb status找到trx id然后打开gen
直接在函数声明上使用 function.prototype.bind

为什么这是允许的 var f function console log this x bind x 1 为什么这不是或者更好为什么我在这种情况下会出现语法错误 function f console log this x bind x 1 那
通过引用 C++ 中的模板函数传递数组

下面的代码对我来说效果很好 include
为什么 null 不是编译时常量？

所以如果我有一个static final Object CONSTANT null 出于某种原因如果我在另一段代码中引用它例如doSomething CONSTANT 它不会在编译期间内联到代码中所以而不是doSomething nu
Ionic 2：如何更新现有项目的 Ionic 库？

在 Ionic 2 网站上找不到任何信息例如使用 Ionic 库 2 0 1 创建一个项目如何将其更新到 Ionic 库 2 1 0 标准程序是什么 ionic lib update已弃用如果您想更新 CLI 您需要运行 npm i
System.Web.Http.HttpPut 与 System.Web.Mvc.HttpPut 有什么不同

之间有什么不同系统 Web Http HttpPut and System Web Mvc HttpPut 在 Web API 项目上使用 HttpPut 会导致错误 405 请求的资源不支持 http 方法 PUT 它们属于两个不同的框架
如何知道选择了哪个单选按钮？

我的 Ui 中有 3 个单选按钮位于同一个单选组中他们是 var rbutton1 app createRadioButton dist 5 miles var rbutton2 app createRadioButton dist 10
如何在iOS中的UITableViewCell中制作渐变背景？

我按照下面的教程使用 CAGradientLayer 在 UITableViewCell 中制作渐变背景 http cocoawithlove com 2009 08 adding shadow effects to uitableview
将字符串转换为Scheme中的代码

如何将字符串转换为PLT方案中相应的代码不包含string gt input port方法例如我想转换这个字符串 1 0 1 0 0 进入这个列表 1 0 1 0 0 是否可以在不打开文件的情况下执行此操作方案有程序read用于从输
onEdit(e) 在附加组件中不起作用

我编写了一个脚本在本机电子表格中使用时效果很好我现在尝试将其作为附加组件发布并且发现onEdit e 不工作当onOpen e and onInstall e 工作正常我已经查看了有关授权模式和安装启用附加组件的文档但我认为我
无法禁用 Core i7 中的硬件预取器

我在尝试禁用 Core i7 系统中的硬件预取器时遇到错误我按照链接中的方法进行操作如何以编程方式禁用硬件预取在我的系统中 grep i msr boot config uname r CONFIG X86 DEBUGCTLMSR y
无法解析的外部符号 _declspec(dllimport)

我在 Visual Studio 中为我的控制台应用程序创建了一个 DLL 在我的 DLL 中我有一个名为 Dialog MainMenu 的类其中有一个 cpp 文件和一个 h 文件以下错误消息错误9错误LNK2001 无法解析的
runST 与 unsafePerformIO 的实际影响

我想要类似的东西 f forall m Mutable v PrimState m r gt m gt v r gt v r illegal signature f gs x runST do y lt thaw x foldM g gt
如何在大量数字中插入空格以使其更具可读性？

我想出了这个因为 stackoverflow 上提供的其他示例是用 C 编写的 string number fmt ulong n cout lt lt lt lt n lt lt lt lt endl char s 128 sprint
MongoDB + Node.js：无法正确插入日期

我一直在使用节点 mongoskin连接这两个一切都很好直到我查询了一些日期字段我认为该字段应该作为 javascript 返回Date目的但结果的类型是字符串这对我来说很奇怪而且不方便插入看起来像这样 var doc da
根据Python列表从yaml文件中检索数据

我在 ipython 工作我有一个 Yaml 文件和一个与我的 Yaml 文件相对应的 thomas id 列表 thomas 文件下第三行下面只是该文件的一小部分完整的文件可以在这里找到 https github com 108mi

根据Python列表从yaml文件中检索数据

根据Python列表从yaml文件中检索数据 的相关文章

随机推荐

热门标签

根据Python列表从yaml文件中检索数据的相关文章