获取多个 Pandas DataFrame 的平均值

2024-03-10

我正在生成许多具有相同形状的数据框，并且我想将它们相互比较。我希望能够获得数据帧的平均值和中位数。

         Source.0  Source.1  Source.2  Source.3
cluster                                        
0        0.001182  0.184535  0.814230  0.000054
1        0.000001  0.160490  0.839508  0.000001
2        0.000001  0.173829  0.826114  0.000055
3        0.000432  0.180065  0.819502  0.000001
4        0.000152  0.157041  0.842694  0.000113
5        0.000183  0.174142  0.825674  0.000001
6        0.000001  0.151556  0.848405  0.000038
7        0.000771  0.177583  0.821645  0.000001
8        0.000001  0.202059  0.797939  0.000001
9        0.000025  0.189537  0.810410  0.000028
10       0.006142  0.003041  0.493912  0.496905
11       0.003739  0.002367  0.514216  0.479678
12       0.002334  0.001517  0.529041  0.467108
13       0.003458  0.000001  0.532265  0.464276
14       0.000405  0.005655  0.527576  0.466364
15       0.002557  0.003233  0.507954  0.486256
16       0.004161  0.000001  0.491271  0.504568
17       0.001364  0.001330  0.528311  0.468996
18       0.002886  0.000001  0.506392  0.490721
19       0.001823  0.002498  0.509620  0.486059

         Source.0  Source.1  Source.2  Source.3
cluster                                        
0        0.000001  0.197108  0.802495  0.000396
1        0.000001  0.157860  0.842076  0.000063
2        0.094956  0.203057  0.701662  0.000325
3        0.000001  0.181948  0.817841  0.000210
4        0.000003  0.169680  0.830316  0.000001
5        0.000362  0.177194  0.822443  0.000001
6        0.000001  0.146807  0.852924  0.000268
7        0.001087  0.178994  0.819564  0.000354
8        0.000001  0.202182  0.797333  0.000485
9        0.000348  0.181399  0.818252  0.000001
10       0.003050  0.000247  0.506777  0.489926
11       0.004420  0.000001  0.513927  0.481652
12       0.006488  0.001396  0.527197  0.464919
13       0.001510  0.000001  0.525987  0.472502
14       0.000001  0.000001  0.520737  0.479261
15       0.000001  0.001765  0.515658  0.482575
16       0.000001  0.000001  0.492550  0.507448
17       0.002855  0.000199  0.526535  0.470411
18       0.000001  0.001952  0.498303  0.499744
19       0.001232  0.000001  0.506612  0.492155

然后我想得到这两个数据帧的平均值。

做到这一点最简单的方法是什么？

只是为了澄清，当所有数据帧的索引和列完全相同时，我想获取每个特定单元格的平均值。

所以在我给出的例子中，平均值[0,Source.0]将为 (0.001182 + 0.000001) / 2 = 0.0005915。

假设两个数据帧具有相同的列，您可以将它们连接起来并计算连接帧上的摘要统计信息：

import numpy as np
import pandas as pd

# some random data frames
df1 = pd.DataFrame(dict(x=np.random.randn(100), y=np.random.randint(0, 5, 100)))
df2 = pd.DataFrame(dict(x=np.random.randn(100), y=np.random.randint(0, 5, 100)))

# concatenate them
df_concat = pd.concat((df1, df2))

print df_concat.mean()
# x   -0.163044
# y    2.120000
# dtype: float64

print df_concat.median()
# x   -0.192037
# y    2.000000
# dtype: float64

Update

如果您想计算两个数据集中具有相同索引的每组行的统计信息，您可以使用.groupby()按行索引对数据进行分组，然后应用平均值、中位数等：

by_row_index = df_concat.groupby(df_concat.index)
df_means = by_row_index.mean()

print df_means.head()
#           x    y
# 0 -0.850794  1.5
# 1  0.159038  1.5
# 2  0.083278  1.0
# 3 -0.540336  0.5
# 4  0.390954  3.5

即使您的数据帧具有不相等的行数，此方法也将起作用 - 如果两个数据帧之一缺少特定行索引，则将在单个现有行上计算平均值/中位数。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

r

NumPy

pandas

获取多个 Pandas DataFrame 的平均值的相关文章

从 Cox PH 模型预测概率

我正在尝试使用 cox 模型来预测时间称为停止 3 后失败的概率 bladder1 lt bladder bladder enum lt 5 coxmodel coxph Surv stop event rx size number cl
Django 如何从 ManyToManyField 序列化并列出全部

我正在使用 Django 1 9 1 开发移动应用程序后端我实现了关注者模型现在我想列出用户的所有关注者但目前我不得不这样做我还使用 Django Rest 框架这是我的 UserProfile 模型 class UserProf
将 matplotlib png 转换为 base64 以在 html 模板中查看

背景你好我正在尝试制作一个简单的网络应用程序按照教程计算阻尼振动方程并将结果的 png 返回到 html 页面然后将其转换为 Base64 字符串 Problem 该应用程序运行正常只是在计算结果时返回损坏的图像图标可能是因为
使用opencv计算深度视差图

我无法使用 opencv 从视差图计算深度我知道两个立体图像中的距离是用以下公式计算的z baseline focal disparity p 但我不知道如何使用地图计算视差我使用的代码如下为我提供了两个图像的视差图 import n
网页抓取（R 语言？）

我想获取中间栏中的公司名称this http www consumercomplaints in bysubcategory mobile service providers page 1 html页面以蓝色粗体书写以及登记投诉者的位置
geom_密度匹配geom_histogram binwitdh

我想在 ggplot2 中的分布条形图上添加一条线以显示平均分布但遇到了麻烦像这样的 ggplot 调用 ggplot x aes date received geom histogram aes y count binwidth 30
使用字母而不是数字进行顺序计数[重复]

这个问题在这里已经有答案了我需要一种方法将字符串递增到 z 然后将 aa 递增到 az 然后将 ba 递增到 bz 依此类推就像 Excel 工作表中的列一样我将向该方法提供前一个字符串它应该增加到下一个字母 PSEUDO C
属性错误：类型对象“图像”没有属性“打开”

Exception in Tkinter callback Traceback most recent call last File C Python34 lib tkinter init py line 1482 in call retu
R 的 dplyr 切片中的奇怪行为

打电话时slice df i 在 R 的 dplyr 包中如果我要求的行索引不存在 nrows lt i 它似乎返回除组中的第一行之外的所有行就像我调用的那样slice df 1 例如 library dplyr c1 lt c a b
如何使用python读取最后一行的特定位置

我有一个太大的 txt 文件并且有几行类似的行如下所示字1 字2 字3 字4 553 75 我对位置 4 值感兴趣即最后一行 553 75 我的文件文本 word1 word2 word3 word4 553 20 word1 w
有没有任何方法可以使用 openpyxl 获取 .xlsx 工作表中存在的行数和列数？

有没有任何方法可以使用 openpyxl 获取 xlsx 工作表中存在的行数和列数在xlrd中 sheet ncols sheet nrows 将给出列数和行数 openpyxl中有这样的方法吗给定一个变量sheet 可以通过以下方式之
python中打印字符串的长度

有没有什么方法可以找到即使是最好的猜测 Python中字符串的打印长度例如 potaa bto 是 8 个字符len但 tty 上只打印 6 个字符宽预期用途 s potato x1b 01 32mpotato x1b 0 0mp
R Shiny - 修复了 Shiny 仪表板中的侧边栏和主标题

我有一个简化的闪亮仪表板请参阅下面的代码我想修复侧边栏和主标题因此在其他帖子的帮助下我编写了一个 CSS 文件来解决该问题 sidebar color FFF position fixed width 220px white sp
使用 Flask-SQLAlchemy 进行多对多多数据库连接

我正在尝试使这个多对多联接与 Flask SQLAlchemy 和两个 MySQL 数据库一起工作并且它非常接近只是它为联接表使用了错误的数据库这是基础知识我有main db and vendor db 表格设置为main db u
R markdown 引文标识符

R markdown 允许使用 YAML 元数据部分中的参考书目元数据字段指定参考书目文件例如 title Sample Document output html document bibliography bibliography bi
从 csv 中读取 pandas 数据帧，以非固定标头开始

我有许多数据文件是由我的实验室中使用的一些相当黑客的脚本生成的该脚本非常有趣因为它在标头之前附加的行数因文件而异尽管它们具有相同的格式并具有相同的标头我正在编写一个批处理来将所有这些文件处理为数据帧如果我不知道位置如何让 pan
从 Python 中编译的正则表达式中提取命名组正则表达式模式

我有一个 Python 正则表达式其中包含多个命名组但是如果先前的组已匹配则可能会错过与一组匹配的模式因为似乎不允许重叠举个例子 import re myText sgasgAAAaoasgosaegnsBBBausgisego
从 C 线程调用 Python 代码

我对从 C 或 C 线程调用 Python 代码时如何确保线程安全感到非常困惑 The Python 文档 http docs python org c api init html non python created threads似乎是
（R 错误）错误：cons 内存耗尽（达到限制？）

我正在处理大数据并且有一个 70GB 的 JSON 文件我正在使用 jsonlite 库将文件加载到内存中我尝试过 AWS EC2 x1 16large 机器 976 GB RAM 来执行此负载但 R 因错误而中断 Error co
在Python中从列表中获取n个项目组的惯用方法？ [复制]

这个问题在这里已经有答案了给定一个列表 A 1 2 3 4 5 6 是否有任何惯用的 Pythonic 方式来迭代它就好像它是 B 1 2 3 4 5 6 除了索引之外这感觉像是 C 的遗留物 for a1 a2 in A i A i

随机推荐

如何重命名项目中的 Rails 控制器和模型

我启动了一个 Rails 应用程序一切正常但现在我想重命名控制器和关联的模型我想改变Corps控制器到Stores模型也相同没有最后的 s 在谷歌上查看人们建议销毁然后重新生成控制器和模型问题是它会删除每个文件的实际代码解决
如何在gemspec文件中指定依赖gem的路径？

我创建了一个 gem X 但它没有发布现在我正在创建另一个 gem 它将添加 gem X 作为依赖项如下所示 s add dependency X 在 gemspec 文件中由于 gem X 不在 ruby gem 或 git 或 r
如果用户正在键入，则延迟 KeyUp 操作 (C#)

我有一个当用户在搜索框中键入内容时被调用的函数我想在实际执行该函数之前等待用户完成输入我知道如何在 JavaScript 中通过超时轻松完成此操作但是我如何在 C 中做同样的事情呢另外在假设用户完成输入之前我应该等待多长时间 1
如何排除 Sbt 中的传递依赖（在程序集插件的上下文中）？

我有两个 Sbt 项目我的共享空间 and 我的服务我的共享空间与依赖关系 libraryDependencies Seq nz ac waikato cms weka attributeSelectionSearchMethods
无法将嵌套应用程序中的自定义 Django 模型指定为 AUTH_USER_MODEL

我无法指定自定义AUTH USER MODEL如果该模型位于nested应用这是一些项目结构 project settings py my parent app init py apps py my child app init py a
JUnit：如何避免测试实用程序类中的“无可运行方法”

我已经从JUnit3 8切换到JUnit4 4 我使用 ant 运行测试所有测试都成功运行但测试实用程序类失败并出现无可运行方法错误我使用的模式是在测试文件夹下包含名为 Test 的所有类我知道运行程序找不到任何用 Test 属
Scrapy、privoxy 和 Tor：SocketError：[Errno 61] 连接被拒绝

我将 Scrapy 与 Privoxy 和 Tor 一起使用这是我之前的问题Scrapy 与 Privoxy 和 Tor 如何更新 IP https stackoverflow com questions 45009940 scrapy
在 Android 上查找圆上的点

一切看起来都那么简单明了直到我必须真正对其进行编程我有什么我上传了一张图片以更好地解释它我有一个圈子我知道它是半径中心点坐标每个按钮的初始坐标红色圆圈我希望能够在将灰色圆形图像旋转 10 度时计算红色按钮的新坐标 x1y
winform中如何只验证数字？

如何在不使用按键选项的情况下验证数字为什么不是Char IsNumber or IsDigit在职的或者我应该使用正则表达式进行验证 private bool ValidateContact if Char IsNumber textB
Java：将浮点二进制转换为浮点十进制

我想转换表示 IEEE754 双精度数尾数部分的字符串找不到Java中是否有这样的转换方法以避免手动添加1 1 2 1 4 1 8等 010000001100101000011111000000000000000000000000000
htaccess 清理 URL 的最佳方法是什么？

我正在为我的网站开发干净的网址我注意到您在互联网上找到的内容几乎都是将您的干净网址重写为您的服务器可以使用的网址所以像这样 www domain com profile username gt www domain com profil
用于分析 .Net 应用程序内存转储的工具

有人可以推荐一个好的吗free除了 Adplus windbg sos 之外还有用于分析 Net 内存转储的工具吗你可以尝试一下调试诊断1 1 http blogs msdn com tess archive 2008 05 21 de
是什么导致 Python 错误“bad escape \C”？

我刚刚编写了一个函数它将查看文本文件并计算文本文件中 True 和 False 的所有实例这是我的文件 ATOM 43 CA LYS A 5 14 038 15 691 37 608 1 00 15 15 C True ATOM 52
Raft算法：term什么时候会增加？

Raft将时间划分为任意长度的术语如图5所示术语用连续的整数编号每个任期以一次选举开始其中一名或多名候选人试图成为领导者如第 5 2 节所述如果候选人赢得选举那么他将在剩余任期内担任领导者在某些情况下选举会导致投票分散在
为什么从搅拌机导出到 Unity 时我的 (FBX) 网格体有孔？

我现在正在学习雕刻我的角色当我将 FBX 文件从 Blender 导出到 Unity 时网格物体的脸上有一个巨大的洞我该如何预防解决这个问题它在 mixamo 中工作得很好在此输入图像描述 https i stack imgur
C++11 中字符串文字的 Unicode 编码

继一个相关问题 https stackoverflow com questions 6794590 how does file encoding affect c11 string literals 我想问一下C 11中新的字符和字符串文字
NUnit 插件与 Resharper 5

最新的 Resharper v5 版本基于本机 NUnit 代码并允许 NUnit 插件我有一个 NUnit 插件可以在 NUnit GUI 中正常工作但无法使其与 Resharper 一起工作根据 R 指示我已将插件库放入 Re
如何使用 PHP/MySQLi 将 NULL 放入 MySQL 整数列？

我通过 URL 将值传递到 PHP 页面并在 MySQLi 查询中使用它们问题在于对于整数列空字符串会转换为零而实际上它需要为 NULL 如何使用 PHP MySQLi 从 URL 中传递的参数获取 NULL 到整数列中更新下
不推荐在 build.gradle 中“启用”Android 数据绑定

in build gradle file dataBinding enabled true enabled已弃用找不到任何有关它的文档任何人有任何想法如何解决它尝试将其替换为 buildFeatures dataBinding tru
获取多个 Pandas DataFrame 的平均值

我正在生成许多具有相同形状的数据框并且我想将它们相互比较我希望能够获得数据帧的平均值和中位数 Source 0 Source 1 Source 2 Source 3 cluster 0 0 001182 0 184535 0 81423

获取多个 Pandas DataFrame 的平均值

Update

获取多个 Pandas DataFrame 的平均值 的相关文章

随机推荐

热门标签

获取多个 Pandas DataFrame 的平均值的相关文章