如何仅聚合混合数据类型数据框中的数字列

2024-01-08

我有一个混合的pd.DataFrame:

import pandas as pd
import numpy as np
df = pd.DataFrame({ 'A' : 1.,
                     'B' : pd.Timestamp('20130102'),
                     'C' : pd.Timestamp('20180101'),
                     'D' : np.random.rand(10),
                     'F' : 'foo' })

df
Out[12]: 
     A          B          C         D    F
0  1.0 2013-01-02 2018-01-01  0.592533  foo
1  1.0 2013-01-02 2018-01-01  0.819248  foo
2  1.0 2013-01-02 2018-01-01  0.298035  foo
3  1.0 2013-01-02 2018-01-01  0.330128  foo
4  1.0 2013-01-02 2018-01-01  0.371705  foo
5  1.0 2013-01-02 2018-01-01  0.541246  foo
6  1.0 2013-01-02 2018-01-01  0.976108  foo
7  1.0 2013-01-02 2018-01-01  0.423069  foo
8  1.0 2013-01-02 2018-01-01  0.863764  foo
9  1.0 2013-01-02 2018-01-01  0.037085  foo

我想聚合我的数字列，但也保留非数字列。如果我做一个gropuby其次是agg. I get:

df.groupby('B').agg(np.median)
Out[13]: 
              A         D
B                        
2013-01-02  1.0  0.482157

这很好，我知道这是期望的行为，因为其他 dtypes 可能会在 np.median 期间引发异常，但我也想得到我的原始专栏F有价值foo，也C with 2018-01-01

到目前为止，我已经使用自定义包装器解决了我的数值聚合函数，例如如果我想对我的数据框进行 nanmean：

def my_nan_median(x):
    if isinstance(x.values[0], np.datetime64):
        return np.min(x) # let the first datetime pass! 
    elif isinstance(x.values[0], str):
        return x.values[0] # let the strings pass!
    else:
        return np.nanmedian(x)

但看起来很糟糕。这样做的正确方法是什么？

通过使用select_dtypes:

df.groupby(list(df.select_dtypes(exclude=[np.number]))).agg(np.median).reset_index()

或者是这样的：

df1 = df.groupby('B',as_index=False).agg(np.median)
pd.concat([df1,df.drop_duplicates(['B']).drop(list(df1),1).reset_index(drop=True)],axis=1)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

Aggregate

aggregatefunctions

pandasgroupby

如何仅聚合混合数据类型数据框中的数字列的相关文章

python 中的代表

我实现了这个简短的示例来尝试演示一个简单的委托模式我的问题是这看起来我已经理解了委托吗 class Handler def init self parent None self parent parent def Handle self
如何正确地将 MIDI 刻度转换为毫秒？

我正在尝试将 MIDI 刻度增量时间转换为毫秒并且已经找到了一些有用的资源 MIDI Delta 时间刻度到秒 http www lastrayofhope co uk 2009 12 23 midi delta time ticks
pydev 调试器：严重警告：此版本的 python 似乎编译不正确（内部生成的文件名不是绝对的）[重复]

这个问题在这里已经有答案了通过运行 from sklearn datasets import fetch california housing import pandas as pd pd set option precision 4 m
Python模块可以访问英语词典，包括单词的定义[关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我正在寻找一个 python 模块它可以帮助我从英语词典中获取单词的定义当然有enchant 这可以帮助我检查该单词是否存在于英语中
如何迭代按值排序的 Python 字典？

我有一本字典比如 a 6 b 1 c 2 我想迭代一下by value 不是通过键换句话说 b 1 c 2 a 6 最直接的方法是什么 sorted dictionary items key lambda x x 1 对于那些讨厌 la
Python逻辑运算符优先级[重复]

这个问题在这里已经有答案了哪个运算符优先4 gt 5 or 3 lt 4 and 9 gt 8 这会被评估为真还是假我知道该声明3 gt 4 or 2 lt 3 and 9 gt 10 显然应该评估为 false 但我不太确定 pyth
从 ffmpeg 获取实时输出以在进度条中使用（PyQt4，stdout）

我已经查看了很多问题但仍然无法完全弄清楚我正在使用 PyQt 并且希望能够运行ffmpeg i file mp4 file avi并获取流式输出以便我可以创建进度条我看过这些问题 ffmpeg可以显示进度条吗 https stack
Django 模型在模板中不可迭代

我试图迭代模型以获取列表中的第一个图像但它给了我错误即模型不可迭代以下是我的模型和模板的代码我只需要获取与单个产品相关的列表中的第一个图像模型 py class Product models Model title models
if 语句未命中中的 continue 断点

在下面的代码中两者a and b是生成器函数的输出并且可以评估为None或者有一个值 def testBehaviour self a None b 5 while True if not a or not b continue pri
Argparse nargs="+" 正在吃位置参数

这是我的解析器配置的一小部分 parser add argument infile help The file to be imported type argparse FileType r default sys stdin parser
从零开始的 numpy 形状意味着什么

好的我发现数组的形状中可以包含 0 对于将 0 作为唯一维度的情况这对我来说是有意义的它是一个空数组 np zeros 0 但如果你有这样的情况 np zeros 0 100 让我很困惑为什么这么定义呢据我所知这只是表达空数组的
按元组分隔符拆分列表

我有清单 print L I WW am XX newbie YY ZZ You WW are XX cool YY ZZ 我想用分隔符将列表拆分为子列表 ZZ print new L I WW am XX newbie YY ZZ You
Seaborn Pairplot 图例不显示颜色

我一直在学习如何在Python中使用seaborn和pairplot 这里的一切似乎都工作正常但由于某种原因图例不会显示相关的颜色我无法找到解决方案因此如果有人有任何建议请告诉我 x sns pairplot stats2 hue
将 matplotlib 颜色图集中在特定值上

我正在使用 matplotlib 颜色图 seismic 绘制绘图并且希望白色以 0 为中心当我在不进行任何更改的情况下运行脚本时白色从 0 下降到 10 我尝试设置 vmin 50 vmax 50 但在这种情况下我完全失去了白色关
mac osx 10.8 上的初学者 python

我正在学习编程并且一直在使用 Ruby 和 ROR 但我觉得我更喜欢 Python 语言来学习编程虽然我看到了 Ruby 和 Rails 的优点但我觉得我需要一种更容易学习编程概念的语言因此是 Python 但是我似乎找不到适用于
使用 PyTorch 分布式 NCCL 连接失败

我正在尝试使用 torch distributed 将 PyTorch 张量从一台机器发送到另一台机器 dist init process group 函数正常工作但是 dist broadcast 函数中出现连接失败这是我在节点 0
如何为每个屏幕添加自己的 .py 和 .kv 文件？

我想为每个屏幕都有一个单独的 py 和 kv 文件应通过 main py main kv 中的 ScreenManager 选择屏幕设计应从文件 screen X kv 加载类等应从文件 screen X py 加载 Screens
迭代 my_dict.keys() 并修改字典中的值是否会使迭代器失效？

我的例子是这样的 for my key in my dict keys my dict my key mutate 上述代码的行为是否已定义假设my dict是一本字典并且mutate是一个改变其对象的方法我担心的是改变字典中的值可能
限制 django 应用程序模型中的单个记录？

我想使用模型来保存 django 应用程序的系统设置因此我想限制该模型使其只能有一条记录极限怎么办尝试这个 class MyModel models Model onefield models CharField The fiel
检查字典键是否有空值

我有以下字典 dict1 city name yass region zipcode phone address tehsil planet mars 我正在尝试创建一个基于 dict1 的新字典但是它不会包含带有空字符串的键它不会包

随机推荐

从 ant 通过 sshexec 将密码传递给“su”命令

有什么方法可以将密码传递给linux su 命令吗我正在尝试使用 sshexec 和 Ant 自动化部署作为其中的一部分我需要执行 su 命令但我找不到为其提供密码的方法 su 命令没有像 sudo 那样的 S 开关我尝试在 ss
调整表单大小，同时保持纵横比

我有一个窗口在其中显示图片我希望用户能够调整此窗口的大小但是保持其与图像的宽高比相同这样窗口上就不会出现大的空白区域我在 OnResize 事件中尝试的是这样的 DragWidth Width DragHeight Height
在 Google 应用程序脚本、电子表格中添加前导零

我有一个主表我正在从那里复制值并将其放入新选项卡中但是当我在新选项卡中显示数字时它会去掉前导零例如在我的主表中我有 00734 我将其复制到新选项卡它显示为 734 这是我用来复制值的代码 var values active
如何为 Objective-C 和 Swift 制作一个通用的 iOS 库？

我需要为 iOS 创建一个库框架或静态库我还没有决定它可以在 Objective C 和 Swift 项目中使用这样做的最佳方法是什么在我看来我有三个选择用 Objective C 编写库并添加对 Swift 的支持桥接头文
如何使用 Fakes Framework shims 模拟/隔离 VS 2012 中的内部类？

所以问题是我的程序集中有一堆内部类由我想要测试的类使用由于访问器已从 VS2012 中删除我可以使用 InternalsVisibleTo 这非常有效除了当我尝试 shimify 我的内部类时它们对 Fakes 框架不可见我还
如何使用 CSS 调整图像大小以适合其容器

我想制作具有恒定宽度和高度的 div 其中包含尺寸未知的子图像像这样的东西我最接近的是max height inherit max width inherit但它改变了纵横比 parent border 1px solid width
数据封装...？

谁能向我解释一下 Objective C 中的数据封装是什么有人告诉我这是 Objective C 的一个重要概念但我不明白为什么向我解释一下就像我 5 岁一样然后又好像我 25 岁一样谢谢你的时间丹尼尔 From http
将日期格式代码转换为日期

用户应该以以下格式输入日期 m d Y 我需要做的是将日期转换为 11 11 2013 这是今天的日期我没有太多处理日期的工作有没有某种方法可以开箱即用地进行这种转换我查看了 DateTime 选项但找不到我需要的内容 Edit 从
这个错误是由于编译器对 RefCell 的特殊了解造成的吗？

fn works lt a gt foo Option lt a mut String gt s a mut String fn error lt a gt foo RefCell
如何正确使用 nextjs 中间件功能和 getServerSideProps 功能？

我正在尝试使用 nextjs 中间件功能这里我创建中间件文件并添加此代码 import type NextRequest from next server import NextResponse from next server expo
Indy 在每个 72 个字符处添加 = 并使用多部分表单数据发布

通过 Delphi XE 和 Indy 我得到了一些提交到 Web 表单的代码 idhttp TidHttp create postData TIdMultiPartFormDataStream Create try postData Ad
点击 UIAlertController 外部时如何关闭 UIAlertController？

如何解雇UIAlertController当点击外部时UIAlertController 我可以添加一个UIAlertAction风格的UIAlertActionStyleCancel驳回UIAlertController 但我想添加当用户
.net 中的 IE 插件开发

我如何在 net 中为 ie 开发插件我基本上希望开发一个像 IE7Pro 这样的内联拼写检查插件看一下这个开发 IE 插件 http www enhanceie com ie dev asp
使 flex item 为其文本的宽度

我想要一个有两列的布局其中左列是某种侧边栏现在我想在侧边栏中使用一些不应换行的文本当我这样做时它会导致某种溢出然后使用overflow hidden隐藏了文本的很大一部分如何修改左列以使用展开文本的宽度和右列以使用剩余空间而不丢
构建 docker-compose 映像时无法连接到 MySQL

我有 docker compose 的配置在构建数据库步骤中 django 管理抛出错误 django db utils OperationalError 2002 无法连接到 127 0 0 1 115 上的MySQL服务器我认为码
numpy 将分类字符串数组转换为整数数组

我正在尝试将分类变量的字符串数组转换为分类变量的整数数组 Ex import numpy as np a np array a b c a b c print a dtype gt gt gt S1 b np unique a print
Angular HTML5 URL - 服务器配置

我读过 AngularJS 使用 hashbang URL 作为默认值但这不是一个优势因此应该使用 HTML5 URL 为了在客户端配置此行为必须完成以下操作 locationProvider html5Mode true 在服务器端
INSTALL_NON_MARKET_APPS 替代方案？

我需要检查安装来自未知来源的应用程序选项是否启用或禁用然而 INSTALL NON MARKET APPS在 API 17 中已弃用是否有新的替代方法来检查这一点这是旧的检查方法 boolean canInstallFromOth
Matplotlib 中极坐标图的插值差异

我正在尝试在极坐标图上生成等值线图并在 matlab 中编写一些快速脚本以获得一些结果出于好奇我也想使用 matplotlib 在 python 中尝试同样的事情但不知何故我看到相同输入数据的不同组等高线图我试图弄清楚发生了什么
如何仅聚合混合数据类型数据框中的数字列

我有一个混合的pd DataFrame import pandas as pd import numpy as np df pd DataFrame A 1 B pd Timestamp 20130102 C pd Timestamp 20

如何仅聚合混合数据类型数据框中的数字列

如何仅聚合混合数据类型数据框中的数字列 的相关文章

随机推荐

热门标签

如何仅聚合混合数据类型数据框中的数字列的相关文章