合并 Pandas Dataframe：如何添加列和替换值

2024-04-30

我有一个数据帧 df1 并想要合并其他（许多）数据帧 df2 以便：

合并发生在匹配的（多）索引上
如果缺失，将创建新列
如果列已存在，则替换值

正确的 pandas 操作是什么以及使用什么参数？我查看了 concat/join/merge/assign/append 但还没有找到。

数据框代码：

df1 = pd.DataFrame({'A':['A1', 'A2', 'A3', 'A4'],
                    'B':['B1', 'B2' ,'B3', 'B4'],
                    'C':['C1' ,'C2', 'C3', 'C4']},
                  index = [1,2,3,4])

df2 = pd.DataFrame({'C':['NewC'], 'D':['NewD']},
                  index=[3])

一种方法是使用combine_first https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.combine_first.html:

df2.combine_first(df1)

Output:

    A   B     C     D
1  A1  B1    C1   NaN
2  A2  B2    C2   NaN
3  A3  B3  NewC  NewD
4  A4  B4    C4   NaN

另一种方法是使用join with fillna:

df1[['A','B']].join(df2).fillna(df1)

Output:

    A   B     C     D
1  A1  B1    C1   NaN
2  A2  B2    C2   NaN
3  A3  B3  NewC  NewD
4  A4  B4    C4   NaN

第三种方式，

df1a = df1.reindex(df1.columns.union(df2.columns), axis=1)
df1a.update(df2)
df1a

Timings:

%%timeit pd.concat((df1,df2),sort=False).groupby(level=0).last()

每个循环 4.56 ms ± 947 µs（7 次运行的平均值 ± 标准差，每次 100 个循环）

%%timeit 
df1a = df1.reindex(df1.columns.union(df2.columns), axis=1)  
df1a.update(df2)
df1a

每个循环 2.93 ms ± 133 µs（7 次运行的平均值 ± 标准差，每次 100 个循环）

%timeit df1[['A','B']].join(df2).fillna(df1)

每个循环 5.2 ms ± 89.7 µs（7 次运行的平均值 ± 标准差，每次 100 个循环）

%timeit df2.combine_first(df1)

每个循环 5.37 ms ± 127 µs（7 次运行的平均值 ± 标准差，每次 100 个循环）

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

pandas

join

MERGE

concatenation

合并 Pandas Dataframe：如何添加列和替换值的相关文章

为什么从 Pandas 1.0 中删除了日期时间？

我在 pandas 中处理大量数据分析并每天使用 pandas datetime 最近我收到警告 FutureWarning pandas datetime 类已弃用并将在未来版本中从 pandas 中删除改为从 datetime 模块
Git 将一个分支合并到所有其他分支中

我知道这个问题已经在这里被问过 https stackoverflow com questions 2329716 merging changes from master into all branches using git https
Pandas 日期时间格式

是否可以用零后缀表示 pd to datetime 似乎零被删除了 print pd to datetime 2000 07 26 14 21 00 00000 format Y m d H M S f 结果是 2000 07 26 14
您可以格式化 pandas 整数以进行显示，例如浮点数的“pd.options.display.float_format”？

我见过this https stackoverflow com questions 18404946 py pandas formatdataframe and this https stackoverflow com questions
Pandas 将多行列数据帧转换为单行多列数据帧

我的数据框如下 code df Car measurements Before After amb temp 30 268212 26 627491 engine temp 41 812730 39 254255 engine eff 15
从节点列表中提取边和社区

我的数据集有超过 50k 个节点我试图从中提取可能的边缘和社区我确实尝试使用一些图形工具如 gephi cytoscape socnet nodexl 等来可视化和识别边缘和社区但节点列表对于这些工具来说太大了因此我正在尝试编写
通过 add_subplot 添加子图后如何共享轴？

我有一个像这样的数据框 df pd DataFrame A 0 3 0 2 0 5 0 2 B 0 1 0 0 0 3 0 1 C 0 2 0 5 0 0 0 7 D 0 6 0 3 0 4 0 6 index list abcd A B
如何（重新）命名 pandas 数据框中的空列标题而不导出到 csv

我有一个熊猫数据框df1带有一个索引列和一系列未命名的值我想为未命名的系列指定一个名称到目前为止我知道的唯一方法是导出到df1 csv using df1 to csv df1 csv header Signal 然后使用以下命令重新
类型错误：此 COM 对象无法自动执行 makepy 过程 - 请为此对象手动运行 makepy

这是什么错误回溯错误 C Users DELL PycharmProjects MyNew venv Scripts python exe C Users DELL PycharmProjects MyNew agaaaaain py T
使用 Python 绘制 USGS 水文数据甘特图？

我编译了一个数据帧其中包含几个不同流计的 USGS 流数据现在我想创建一个类似的甘特图this https stackoverflow com questions 31820578 how to plot stacked event d
导入 pandas 显示 ImportError: 无法导入名称哈希表

我已经在 python 3 3 上安装了 pandas 代码如下 import csv import pandas from pandas import DataFrame csvdata pandas read csv datafile
pandas.read_fwf 忽略提供的数据类型

我正在从文本文件导入数据框我想指定列的数据类型但 pandas 似乎忽略了dtype input 一个工作示例 from io import StringIO import pandas as pd string USAF WBAN S
根据数据框中的内容从SQL Server删除行

我在 SQL Server 中有一个名为的库存表dbo inventory其中包含Year Month Material and Stock quantity 我每天都会收到 csv 文件形式的新库存计数需要将其加载到dbo invent
python pandas从0/1数据帧到项目集列表

从这种形式的 0 1 pandas numpy 数据帧中最有效的方法是什么 gt gt gt dd a 0 1 1 0 2 1 3 0 4 1 5 1 b 0 1 1 1 2 0 3 0 4 1 5 1 c 0 0 1 1 2 1 3 0
pandas DataFrame 连接/更新（“upsert”）？

我正在寻找一种优雅的方法将一个 DataFrame 中的所有行附加到另一个 DataFrame 两个 DataFrame 具有相同的索引和列结构但如果两个 DataFrame 中出现相同的索引值请使用第二个数据中的行框架因此举例来说
获取 Pandas 数据框中选定值的行和列标签

我想获取与数据框中某些条件匹配的值的行和列标签为了保持它的趣味性我需要它与分层多索引一起使用例如 df pd DataFrame np arange 16 reshape 4 4 columns pd MultiIndex fro
如何在Python中流式传输和操作大数据文件

我有一个相对较大 1 GB 的文本文件我想通过跨类别求和来减小其大小 Geography AgeGroup Gender Race Count County1 1 M 1 12 County1 2 M 1 3 County1 2 M 2
保留完整姓氏，在 pandas 列中获取名字的首字母（如果有的话，还有中间名）

我有一个 pandas 数据框其中有一列表示几位网球运动员的姓氏和姓名如下所示 Player 0 Roddick Andy 1 Federer Roger 2 Tsonga Jo Wilfred 我想保留完整的姓氏并获取姓名的首字母和中
连接 3 三张表

我有这个图表应该可以解释我的情况我需要一些关于连接 3 个表的帮助我不知道如何做这种事情因此我可以通过执行以下操作来经历一段检索记录的 while 循环 img src alt Album AlbumID 使用内部联接 http w
如何避免连接两个表时重复

Student Table SID Name 1 A 2 B 3 C Marks Table id mark subject 1 50 physics 2 40 biology 1 50 chemistry 3 30 mathematics

随机推荐

使用反射检查java中的字段是否为final

我正在编写一个类它在某些时候必须拥有它的所有内容Fields 从该类的另一个项目分配我通过反思做到了 for Field f pg getClass getDeclaredFields f set this f get pg 问题是这
如何在首选项标头中使用 PreferenceFragmentCompat

我正在尝试学习在 Xamarin Android 应用程序中构建首选项页面的方法我发现了很多 PreferenceFragment 的例子但它被标记为已弃用我在现阶段很难重写它们我创建了代表标题的活动我添加了 IntentFilt
iTextSharp 居中对齐文档对象内的对象

是否有一种快速而简单的方法可以将文档对象中的对象居中对齐 Without执行任何计算逻辑即获取页面宽度获取内容宽度除以二等我在 Document 对象内的 Paragraph 对象中有一个 PdfPTable 对象我想将段落对象
如何在屏幕上锚定 Tkinter 窗口（不可移动窗口）

我正在尝试在特定位置打开 tkinter 如果它是不可移动的那就更好了我搜索文档和其他内容但没有找到任何相关内容最好的方法是将顶部或底部固定在一个位置 x y 如果需要我可以调整窗口大小 def my functions prin
发布版本和 CLI 出现 aurelia-dialog 错误

我在使用新的 aurelai 版本时遇到问题我使用以下命令创建了一个新应用程序 au new myApp 我通过 npm 安装了 aurelia dialog 当我导入 aurelia dialog 并尝试使用运行应用程序时 au run
为什么我的 android 项目中 onStart() 方法在 onCreate 之前运行？

根据 Activity 的生命周期 onCreate 在应用创建时会被调用一次然后 onStart 方法在整个 Activity 生命周期中可能会被调用多次然而这并不是发生在我身上的事情我的 onCreate 方法中有以下代码 mRe
App Engine Cron 作业始终返回 HTTP 状态代码 301

我已关注本指南 https cloud google com appengine docs flexible ruby scheduling jobs with cron yaml为我的 Rails 应用程序创建 cron 作业但 HTT
标签标签语义

我读了this https stackoverflow com questions 1094352 can a label only refer to input elements我通常使用跨度或强来描述文本标签对于最佳实践来说这是真的
org.dozer.MappingException：找不到字段的读取或写入方法

org dozer MappingException 找不到字段的读取或写入方法 tarShipMethodCode lmCourier courierName 在类 class com essilor ong domain invento
比较字符变量

我想在 R Studio 中比较两个不同的字符变量第一列 BZ Pred 显示参与者预测的 5 个最常用的应用程序第二列 BZ Act 显示实际使用最多的 5 个应用程序现在我想创建第三列如果第一个应用程序被正确猜测则包含是如
ASP.NET 中的网络凭据错误

我正在尝试使用 NetworkCredential 类通过 ASP NET 访问网页但是我不断收到以下消息的异常System Security Cryptography CryptographicException The handle
为什么在将应用程序部署到 Heroku 时会出现此错误？

使用 git hub 将应用程序部署到 heroku 时遇到某种错误问题是我不理解 heroku 日志和随之而来的错误这是 Heroku 日志 Marcuss MacBook Pro Weather App marcushurney
公钥的长度（加密）可以与私钥不同吗？

我有一个 1024 位的私钥并用它来生成公钥这是否自动意味着我的公钥也具有 1024 加密或者它的加密大小可以更小吗 512 256 PS 我最感兴趣并谈论的是 RSA 密钥中模数 n 的大小大小通常为 1024 或 2048 位
启用 WCF 数据服务默认接受/返回 JSON

我有一个 WCF 数据服务我希望默认情况下为所有操作返回 JSON 我可以在配置通过服务属性中设置它吗为了通过 format 标签启用 json 如下所示 host 8038 YourService svc format json 将
您会在新的商业项目中使用 S#arp 架构吗？

The S arp 架构 http code google com p sharp architecture 看起来真的很酷但是您是否认为它仍然太新而无法在重要的新项目中做出承诺我们假设该项目乍一看很适合它 It all seems非常
无法在 XAMPP 和 Windows XP 上安装 Xdebug

我知道这个问题已经被问过好几次了但答案并没有解决我的问题我在 Windows XP SP3 上运行 XAMPP 1 8 2 并且在安装 XDebug 时遇到困难我从网站下载了XDebug 不幸的是安装向导对我不起作用我的 PHP
如何在 CSV 文件中插入新行？

我正在创建一个系统其中涉及创建用于错误记录的 CSV 我当前的代码成功创建了一个具有唯一名称的新文件然后将现有数据来自数组添加到 CSV 中我遇到的问题是在文件中添加新行这是维持正确结构所必需的我现有的代码 current f
rvm 监控延迟作业

我正在尝试使用 monit 运行delayed job 但它无法运行因为 rvm 的路径每个用户的本地 rvm 安装对该命令不可用我的应用程序是一个带有捆绑器的rails2应用程序 Monit 无法找到捆绑程序有人对我如何了解 m
致命错误：未找到“MongoDB\Driver\Manager”类

我想使用 MongoDB 驱动程序但当我使用它时它抛出一个错误 mongo new MongoDB Driver Manager mongodb localhost 27017 错误消息未找到类 MongoDB Driver Man
合并 Pandas Dataframe：如何添加列和替换值

我有一个数据帧 df1 并想要合并其他许多数据帧 df2 以便合并发生在匹配的多索引上如果缺失将创建新列如果列已存在则替换值正确的 pandas 操作是什么以及使用什么参数我查看了 concat join merge

合并 Pandas Dataframe：如何添加列和替换值

Timings:

合并 Pandas Dataframe：如何添加列和替换值 的相关文章

随机推荐

热门标签

合并 Pandas Dataframe：如何添加列和替换值的相关文章