如何根据字段合并两个 CSV 文件并在每条记录上保留相同数量的属性？

2024-01-05

我正在尝试根据每个文件中的特定字段合并两个 CSV 文件。

文件1.csv

id,attr1,attr2,attr3
1,True,7,"Purple"
2,False,19.8,"Cucumber"
3,False,-0.5,"A string with a comma, because it has one"
4,True,2,"Nope"
5,True,4.0,"Tuesday"
6,False,1,"Failure"

文件2.csv

id,attr4,attr5,attr6
2,"python",500000.12,False
5,"program",3,True
3,"Another string",-5,False

这是我正在使用的代码：

import csv
from collections import OrderedDict

with open('file2.csv','r') as f2:
    reader = csv.reader(f2)
    fields2 = next(reader,None) # Skip headers
    dict2 = {row[0]: row[1:] for row in reader}

with open('file1.csv','r') as f1:
    reader = csv.reader(f1)
    fields1 = next(reader,None) # Skip headers
    dict1 = OrderedDict((row[0], row[1:]) for row in reader)

result = OrderedDict()
for d in (dict1, dict2):
    for key, value in d.iteritems():
        result.setdefault(key, []).extend(value)

with open('merged.csv', 'wb') as f:
    w = csv.writer(f)
    for key, value in result.iteritems():
        w.writerow([key] + value)

我得到这样的输出，它适当地合并，但所有行的属性数量不同：

1,True,7,Purple
2,False,19.8,Cucumber,python,500000.12,False
3,False,-0.5,"A string with a comma, because it has one",Another string,-5,False
4,True,2,Nope
5,True,4.0,Tuesday,program,3,True
6,False,1,Failure

file2不会有每个记录id in file1。我希望输出有空字段file2在合并的文件中。例如，id1 看起来像这样：

1,True,7,Purple,,,

如何将空字段添加到没有数据的记录中file2这样合并后的 CSV 中的所有记录都具有相同数量的属性吗？

如果我们不使用pandas，我会重构为类似的东西

import csv
from collections import OrderedDict

filenames = "file1.csv", "file2.csv"
data = OrderedDict()
fieldnames = []
for filename in filenames:
    with open(filename, "rb") as fp: # python 2
        reader = csv.DictReader(fp)
        fieldnames.extend(reader.fieldnames)
        for row in reader:
            data.setdefault(row["id"], {}).update(row)

fieldnames = list(OrderedDict.fromkeys(fieldnames))
with open("merged.csv", "wb") as fp:
    writer = csv.writer(fp)
    writer.writerow(fieldnames)
    for row in data.itervalues():
        writer.writerow([row.get(field, '') for field in fieldnames])

这使

id,attr1,attr2,attr3,attr4,attr5,attr6
1,True,7,Purple,,,
2,False,19.8,Cucumber,python,500000.12,False
3,False,-0.5,"A string with a comma, because it has one",Another string,-5,False
4,True,2,Nope,,,
5,True,4.0,Tuesday,program,3,True
6,False,1,Failure,,,

为了比较，将pandas相当于

df1 = pd.read_csv("file1.csv")
df2 = pd.read_csv("file2.csv")
merged = df1.merge(df2, on="id", how="outer").fillna("")
merged.to_csv("merged.csv", index=False)

在我看来，这要简单得多，意味着您可以花更多的时间处理数据，而减少重新发明轮子的时间。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

csv

MERGE

如何根据字段合并两个 CSV 文件并在每条记录上保留相同数量的属性？的相关文章

如何确定非阻塞套接字是否真正连接？

这个问题不仅限于Python 这是一个一般的套接字问题我有一个非阻塞套接字想要连接到一台可访问的机器在另一端该端口不存在为什么 select 仍然成功我预计会超时 sock send 因管道损坏而失败 select 之后如何确定
python - 是否可以扩展 xml-rpc 可以序列化的事物集？

我看到几个问题询问如何发送numpy ndarray通过 xml rpc 调用这不能开箱即用因为正如 xml rpc 中所述docs https docs python org 2 library xmlrpclib html 有一组固
从字符串到类型的词法转换

最近我尝试用Python存储和读取文件中的信息遇到了一个小问题我想从文本文件中读取类型信息从 string 到 int 或 float 的类型转换非常有效但从 string 到 type 的类型转换似乎是另一个问题当然我尝试了
即使使用 .loc[row_indexer,col_indexer] = value 时也会设置 WithCopyWarning

这是我的代码中得到的行之一SettingWithCopyWarning value1 Total Population value1 Total Population replace to replace value 4 然后我将其更改为
优化 Keras 以使用所有可用的 CPU 资源

好吧我真的不知道我在说什么所以请耐心听我说我正在使用 Theano 后端运行 Keras 以在 MNIST 图像上运行基本的神经网络目前只是一个教程过去我一直使用我的旧 HP 笔记本电脑因为我有 Windows 和 Ubunt
Paramiko - 使用私钥连接 - 不是有效的 OPENSSH 私钥/公钥文件

我正在尝试找到解决方案但无法理解我做错了什么在我的 Linux 服务器上我运行了以下命令 ssh keygen t rsa 这产生了一个id rsa and id rsa pub file 然后我将它们复制到本地并尝试运行以下代码 s
PIL Image.size 返回相反的宽度/高度

使用PIL确定图像的宽度和高度在特定图像上幸运的是只有这一个但这很麻烦从 image size 返回的宽度高度是相反的图片 http storage googleapis com cookila 533ebf752b9d1f7c
如果字段值在外部列表中，Django 会注释布尔值

想象一下我有这个 Django 模型 class Letter models Model name models CharField max length 1 unique True 还有这个列表 vowels a e i o u 我想查询
如何从 Dockerfile 安装 Python 3.7 和 Pip

我正在尝试构建基于 Ubuntu 18 04 的自定义 Docker 映像 Ubuntu 预装了 Python 3 6 但我想 1 安装 Python 3 7 2 将其设置为默认 Python 版本这样就可以使用python代替pytho
定义函数后对其进行修饰？

I think答案是否定的但我似乎找不到明确的说法我有以下情况 def decorated function function functools wraps function def my function print Hello s
matplotlib matshow 标签

我一个月前开始使用 matplotlib 所以我仍在学习我正在尝试用 matshow 制作热图我的代码如下 data numpy array a reshape 4 4 cax ax matshow data interpolation
为什么我用 beautifulSoup 刮的时候有桌子，但没有 pandas

尝试抓取条目页面转换为制表符分隔格式主要拉出序列和 UniProt 登录号当我跑步时 url www signalpeptide de index php sess m listspdb bacteria s details id 10
select() 可以在 Windows 下使用 Python 中的文件吗？

我正在尝试在 Windows 下运行以下 python 服务器 An echo server that uses select to handle multiple clients at a time Entering any line o
将一个列表的元素除以另一个列表的元素

我有两个清单比如说 a 10 20 30 40 50 60 b 30 70 110 正如你所看到的列表 b 由一个列表的元素总和组成其中 window 2 b 0 a 0 a 1 10 20 30 etc 如何获得另一个列表该列表由
如何有效地从 loadmat 函数生成的嵌套 numpy 数组中提取值？

python中是否有更有效的方法从嵌套的python列表中提取数据例如A array array 12000000 dtype object 我一直在使用A 0 0 0 0 当你有很多像 A 这样的数据时这似乎不是一个有效的方法我也用
Airflow Python 单元测试？

我想为我们的 DAG 添加一些单元测试但找不到任何单元测试有 DAG 单元测试框架吗有一个端到端的测试框架存在但我猜它已经死了 https issues apache org jira browse AIRFLOW 79 https
Flask WTForms 使用变量自动填充 StringField

我有一个表格我想用上一页收到的信息自动填充一些字段但如果他们想调整它它需要是可更改的我正在为我的 SelectField 使用动态创建的列表但添加 StringField 并不成功请参阅下面的我的代码 forms py clas
全局变量是 None 而不是实例 - Python

我正在处理Python 中的全局变量代码应该可以正常工作但是有一个问题我必须使用全局变量作为类的实例Back 当我运行应用程序时它说 back is None 这应该不是真的因为第二行setup 功能 back Back Back
如何禁止 celery 中的 pickle 序列化

Celery 默认使用 pickle 作为任务的序列化方法如中所述FAQ http ask github com celery faq html isn t using pickle a security concern 这代表一个安全漏
TypeError：无法使用抽象方法实例化抽象类 <...>

这是我的代码 from abc import ABC from abc import abstractmethod class Mamifiero ABC docstring for Mamifiero def init self self

随机推荐

CouchDB 视图为每个“组”返回一个元素

我的数据库有很多类似这样的文档 id 7fa2e319f3b908818d1c6eda9205fc6f rev 3 9db3d8cc45c9a45b35c3981011e77bb5 Guid 2d69ba2e 972e 4659 8d3f
给定两个数组 a 和 b 。找到所有元素对 (a1,b1)，使得 a1 属于数组 A，b1 属于数组 B，其总和 a1+b1 = k

我正在寻找具有最小时间和空间复杂度的以下算法的解决方案给定两个数组 a 和 b 找到所有元素对 a1 b1 使得 a1 属于数组 A b1 属于数组 B 其总和 a1 b1 k 任意整数我能够想出 O n log n 方法我们将对数组
如何在 C# 中使用正则表达式检索选定的文本？

如何在 C 中使用正则表达式检索选定的文本我正在寻找与此 Perl 代码等效的 C 代码 indexVal 0 if string Index d indexVal 1 int indexVal 0 Regex re new Regex
MonthDisplayHelper.NumberOfDaysInMonth 在 MonoDroid 中返回错误值

我想创建一个Calendar 但是MonthDisplayHelper返回错误值 312013 年 2 月即28天我究竟做错了什么 DateTime mRightNow DateTime Now MonthDisplayHelper m
WPF 窗口背景颜色

默认情况下 wpf 窗口具有白色所以我应该为背景指定什么颜色这样它看起来就像普通窗口就像 net 2 0 win 应用程序窗口颜色一样请帮忙您需要使用系统颜色画笔绘制背景 The SystemColors ControlBrush
Asp.Net Ajax.BeginForm 和 UpdateTargetId 不起作用

我有这个家庭控制器 public ActionResult Details string id var customer Customers GetCustomersById id return PartialView CustomerDe
将二叉搜索树转换为双向链表

这个问题是在最近的一次编码采访中被问到的 Q 给定一个二叉树编写一个程序将其转换为双向链表双向链表中的节点按照锯齿状层次顺序遍历形成的顺序排列我的方法我总是可以对树进行之字形级别顺序遍历并将其存储在数组中然后创建一个双向链表但这
WCF 数据服务在对派生类型发出 OData 请求时给出 404

我认为我缺少使 WCF 数据服务 OData 继承工作的技巧我创建了几个简单的表 create table Super superID int IDENTITY 1 1 not null PRIMARY KEY supername nva
多点连接：同时向所有对等点共享文件

我正在研究一个主题多点连接框架我通过以下链接对这个框架有了一个很好的想法 http www appcoda com intro multipeer connectivity framework ios programming http w
gnuradio `ImportError 未定义符号`

我是 GNU Radio 和 python 的新手我正在尝试写一个相关块在我的代码中的某处我使用 fft 过滤器 gr filter kernel fft filter ccc d filter d filter new gr filt
使用未初始化的最终字段 - 带/不带“this”。预选赛

有人可以向我解释为什么以下两个示例中的第一个可以编译而第二个则不能编译请注意唯一的区别是第一个用 this 显式限定对 x 的引用而第二个则没有在这两种情况下最终字段 x 显然是在初始化之前尝试使用的我本以为这两个样本会被完全
替换 MultiIndex 中的值（pandas）

在下面的DataFrame中我如何替换 x2 Total with x2 x2 离开x1 as is l1 900 902 912 913 916 l2 i1 i2 x1 Total 10 6 3 3 10 16 2 9 3 8 x2 T
谷歌地图自动完成与材料设计

我有一个关于在材料设计中实现谷歌地图自动完成功能的问题
将 div 定位到不同 div 的底部，不使用 Absolute [关闭]

Closed 这个问题需要调试细节 help minimal reproducible example 目前不接受答案我在另一个div中有一个div 内部 div 的边距为 0 自动将其居中但是如果不使其绝对化我无法让它浮到底部有
如何在网格布局中将引导下拉菜单和其他下拉菜单对齐？

I am trying to create filters whose layout should match something like below screenshot So far I am able to achieve some
delphi休眠推送和检测

使用Delphi5 我有一个随 Windows 启动而启动的应用程序我想在 Hibernate Wake 命令上关闭并启动它我需要能够检测它是否从休眠状态返回以便我每次都可以运行我的应用程序我在注册表中有一个设置用户可以选择每天仅
Flutter 无法从 app.apk 读取清单信息

我四天前就升级了 flutter 从那时起我就遇到了问题工作区没有错误因为其他协作者的代码运行良好错误是 Error running com xxxxxxxx signals Default activity not found Un
由于 HSTS，本地虚拟主机在 Chrome 上显示隐私错误

我为我的开发过程创建了多个虚拟主机直到昨天他们都工作得很好但在我的 Chrome 应用程序中今天它们停止工作了 Chrome 显示 NET ERR CERT AUTHORITY INVALID 我所有的虚拟主机都以 dev 我换了一个
Java switch case：带大括号还是不带大括号？

考虑以下两个带有大括号的片段 switch var case FOO x x 1 break case BAR y y 1 break 不带大括号 switch var case FOO x x 1 break case BAR y y 1
如何根据字段合并两个 CSV 文件并在每条记录上保留相同数量的属性？

我正在尝试根据每个文件中的特定字段合并两个 CSV 文件文件1 csv id attr1 attr2 attr3 1 True 7 Purple 2 False 19 8 Cucumber 3 False 0 5 A string wit

如何根据字段合并两个 CSV 文件并在每条记录上保留相同数量的属性？

如何根据字段合并两个 CSV 文件并在每条记录上保留相同数量的属性？ 的相关文章

随机推荐

热门标签

如何根据字段合并两个 CSV 文件并在每条记录上保留相同数量的属性？的相关文章