groupby.first() 和 groupby.head(1) 有什么区别？

2024-04-09

两者都返回每组第一行的 DataFrame。在阅读 API 参考时，它首先说“计算第一组值”，但是当并排查看两个输出时，我没有发现重大差异。

我错过了什么吗？

df = pd.DataFrame({'id' : [1,1,1,2,2,3,3,3,3,4,4,5,6,6,6,7,7],
                    'value'  : ["first","second","second","first",
                                "second","first","third","fourth",
                                "fifth","second","fifth","first",
                                "first","second","third","fourth","fifth"]})

第一个API http://pandas.pydata.org/pandas-docs/stable/generated/pandas.core.groupby.GroupBy.first.html#pandas.core.groupby.GroupBy.first

主要区别在于first()将跳到第一个非空值，而head(1) won't.

如果我掉落np.nan进入你的例子：

df = pd.DataFrame({'id' : [1,1,1,2,2,3,3,3,3,4,4,5,6,6,6,7,7],
                   'value'  : [np.nan,"second","second","first",
                               "second","first","third","fourth",
                               "fifth","second","fifth","first",
                               "first","second","third","fourth","fifth"]})

然后我们有：

>>> df.groupby('id').head(1)
    id   value
0    1     NaN      # NaN is included
3    2   first
5    3   first
9    4  second
11   5   first
12   6   first
15   7  fourth

>>> df.groupby('id').first()
     value
id        
1   second          # NaN is skipped
2    first
3    first
4   second
5    first
6    first
7   fourth

（此外，如你所见，head()重置索引。）

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

DataFrame

groupby.first() 和 groupby.head(1) 有什么区别？的相关文章

numpy python 中的“AttributeError：'matrix'对象没有属性'strftime'”错误

我有一个维度为 72000 1 的矩阵该矩阵涉及时间戳我想使用 strftime 如下所示 strftime d m y 为了得到像这样的输出 11 03 02 我有这样一个矩阵 M np matrix timestamps 我使用了
NumPy linalg.eig

我有这个烦人的问题但我还没有弄清楚我有一个矩阵我想找到特征向量所以我写 val vec np linalg eig mymatrix 然后我得到了 vec 我的问题是当我小组中的其他人对相同的矩阵 mymatrix 做同样的事情时
在Python中如何获取字典的部分视图？

是否有可能获得部分视图dict在Python中类似于pandasdf tail df head 说你有很长一段时间dict 而您只想检查某些元素开头结尾等 dict 就像是 dict head 3 To see the first 3
从sklearn PCA获取特征值和向量

如何获取 PCA 应用程序的特征值和特征向量 from sklearn decomposition import PCA clf PCA 0 98 whiten True converse 98 variance X train clf f
PyTorch 给出 cuda 运行时错误

我对我的代码做了一些小小的修改以便它不使用 DataParallel and DistributedDataParallel 代码如下 import argparse import os import shutil import time
将二维数组放入 Pandas 系列中

我有一个 2D Numpy 数组我想将其放入 pandas 系列而不是 DataFrame 中 gt gt gt import pandas as pd gt gt gt import numpy as np gt gt gt a np
如何在VIM中设置文件的正确路径？

每当我击中 pwd在 vim 中命令总是返回路径C Windows system32 即使我在桌面上的 Python 文件中所以每当我跑步时 python 命令返回 python can t open file Users myname
如何在Python中高效地添加稀疏矩阵

我想知道如何在Python中有效地添加稀疏矩阵我有一个程序可以将大任务分解为子任务并将它们分配到多个 CPU 上每个子任务都会产生一个结果一个 scipy 稀疏矩阵格式为 lil matrix 稀疏矩阵尺寸为 100000x50
对使用 importlib.util 导入的对象进行酸洗

我在使用Python的pickle时遇到了一个问题我需要通过将文件路径提供给 importlib util 来加载一些 Python 模块如下所示 import importlib util spec importlib util sp
如何使用 Bokeh 动态隐藏字形和图例项

我正在尝试在散景中实现复选框其中每个复选框应显示隐藏与其关联的行我知道可以通过图例来实现这一点但我希望这种效果同时在两个图中发生此外图例也应该更新在下面的示例中出现了复选框但不执行任何操作我显然不明白如何更新用作源的数据
如何在 Django 中使用基于类的视图创建注册视图？

当我开始使用 Django 时我几乎使用 FBV 基于函数的视图来处理所有事情包括注册新用户但当我更深入地研究项目时我意识到基于类的视图通常更适合大型项目因为它们更干净且可维护但这并不是说 FBV 不是无论如何我将整个项目
Python Django-如何从输入文件标签读取文件？

我不想将文件保存在我的服务器上我只想在下一页中读取并打印该文件现在我有这个 index html
Python Pandas：如何对组中的所有项目进行分组并为其分配 id？

我有 df domain orgid csyunshu com 108299 dshu com 108299 bbbdshu com 108299 cwakwakmrg com 121303 ckonkatsunet com 121303
Pandas 堆积条形图中元素的排序

我正在尝试绘制有关某个地区 5 个地区的家庭在特定行业赚取的收入比例的信息我使用 groupby 按地区对数据框中的信息进行排序 df df orig groupby District Portion of income value co
`pyqt5'错误`元数据生成失败`

我正在尝试安装pyqt5使用带有 M1 芯片和 Python 3 9 12 的 mac 操作系统我怀疑M1芯片可能是原因我收到一个错误metadata generation failed 最小工作示例 directly in the t
sqlite3从打印数据中删除括号

我创建了一个脚本用于查找数据库第一行中的最后一个值 import sqlite3 global SerialNum conn sqlite3 connect MyFirstDB db conn text factory str c con
falcon，AttributeError：“API”对象没有属性“create”

我正在尝试测试我的猎鹰路线但测试总是失败而且看起来我把所有事情都做对了 my app py import falcon from resources static import StaticResource api falcon API
当有很多列时，使用 readr::read_csv() 导入数据时覆盖列类型

我正在尝试使用 R 中的 readr read csv 读取 csv 文件我导入的 csv 文件大约有 150 列我只包含示例的前几列我希望将第二列从默认类型我执行 read csv 时为日期覆盖为字符或其他日期格式 GIS Jo
如何绘制堆积比例图？

我有一个数据框 x lt data frame id letters 1 3 val0 1 3 val1 4 6 val2 7 9 id val0 val1 val2 1 a 1 4 7 2 b 2 5 8 3 c 3 6 9 我想绘制一个
bs4 `next_sibling` VS `find_next_sibling`

我在使用时遇到困难next sibling 并且类似地与next element 如果用作属性我不会得到任何返回但如果用作find next sibling or find next 然后就可以了来自doc https www cru

随机推荐

AWS 在 Google 云 (GCP) 中承担同等角色吗？

如何在GCP中设置多帐户项目在AWS中可以通过使用assume role 有人知道如何在 Google Cloud Platform GCP 中执行此操作吗我尝试在 GCP 中探索 AWS 等效项但找不到任何文档据记载承担角色
WPF DropShadowEffect - 意外的色差

我有一个带有 DropShadowEffect 的 TextBlock 某些阴影颜色显示得比指定的颜色更深几乎就像它们被染色一样然而并非每种颜色都会发生这种情况有谁知道为什么或者有纠正的方法吗这是一个非常基本的示例
从网络浏览器中检测和访问 USB 设备 - 即使用插件

是否可以通过插件 activeX Java 或 Flex 编写一个能够检测从 USB 设备通道读取数据流的浏览器插件我做了一些研究但没有找到答案 http support microsoft com kb 832678 http sup
如何向 Visual Studio 2017 或 Visual Studio 2019 注册“自定义工具”以使其正常工作？

背景我们有一个定制工具 https msdn microsoft com en us library bb166817 aspx它接受 xml 输入并生成 cs 输出自定义工具需要注册 https learn microsoft com
从 mysql 迁移后 postgres 数据库不工作

我在sequelize中将MySQL数据库更改为postgreSQL 但是迁移后我对表或模型中的大小写首字母有问题在我的 MySQL 版本正常工作之前但在迁移之后我收到错误消息 500 SequelizeDatabaseError re
Django HTML 截断

我正在使用内置截断words html https docs djangoproject com en dev ref templates builtins from olddocs truncatewords htmlDjango 的过滤
连接二维数组

我有两个数组 mat1 和 Mat2 我想要 new mat ma1 mat2 我写了一个可以运行的函数我想知道是否有一个适用于非常大的矩阵的有效函数或者如何使用 Array CopyTo 方法来做到这一点 public static d
太多带有 unicode 文本的 UILabels

我有180UILabels 子视图UITableViewCells 在 iPad 应用程序中每个宽度为 155 X 155UILabel 并且每个都包含大量的 Unicode 文本阿拉伯语当我向下滚动时TableView它挂起 1 秒
SQL 查询查找车站之间的火车

这是我的火车时刻表我想要一个车站之间火车的解决方案 Train Code 15609 ABC 15609 XYZ 15609 PQR 15609 ADI 15609 QWE 15609 XPM 15609 IND 15680 ABC 15
如何在haml模板中的coffescript中的ruby代码中使用本地或实例变量

我是 Rails 的新手并面临着复杂的问题试图在 Haml 模板的 CoffeeScript 中的 ruby 辅助方法中使用变量这是我在 haml 中的代码 coffee input field blur gt input input
Maven 依赖插件：复制依赖项：排除单个工件

我需要从 maven dependency plugin copy dependencies 中排除单个工件在文档上 https maven apache org plugins maven dependency plugin copy
set 和 freezeset 的继承行为似乎不同

有人可以解释以下行为 class derivedset1 frozenset def new cls args return frozenset new cls args class derivedset2 set def new cls
在 vscode 中找不到 python 调试适配器 - WSL:Ubuntu

我正在尝试使用 vscode 调试 python 脚本远程WSL https marketplace visualstudio com items itemName ms vscode remote remote wsl使用 Python
如何显示本地h2数据库的内容（Web控制台）？

最近我加入了一个新团队这里的人使用 h2 进行存根服务我想知道是否可以使用网络界面显示该数据库的内容在工作中可以通过访问localhost 5080 我有一个使用 h2 数据库的项目但是当我点击时我看不到 h2 Web 控制台lo
如何将证书作为秘密存储在AWS秘密管理器中？如何使用 AWS appSync 解析器在 https 调用中传递该秘密？

我需要从 AWS dynamoDB 和第三方 httpd 服务获取元素并将这些结果合并到 AWS appSync 中并将结果作为 graphQL 响应发回我正在使用的第三方服务需要客户端证书我没有找到有关如何使用 AWS appSy
拍照之前必须启动预览模式

我们使用 cwac camera 在我们的应用程序中获取这样的堆栈跟踪 java lang IllegalStateException Preview mode must have started before you can take a
使用 Python 更改 XML 文件中包含的文本的最佳方法是什么？

假设我有一个名为 MyData xml 的现有简单 XML 文件其中包含以下内容
使用 xscreensaver 编写屏幕保护程序的提示和技巧？ [关闭]

很难说出这里问的是什么这个问题是含糊的模糊的不完整的过于宽泛的或修辞性的无法以目前的形式得到合理的回答如需帮助澄清此问题以便重新打开访问帮助中心 help reopen questions 几个月来我一直在做一些简单的 Ope
SiteMesh：更改响应的内容类型

我试图说服 SiteMesh 装饰器更改响应的内容类型但没有任何乐趣内容类型最终总是与装饰后的 JSP 相同而不是装饰器的内容类型例如假设我有一个带有标头的 JSP 我还有一个 SiteMesh 装饰器 JSP 它定义了以下内容
groupby.first() 和 groupby.head(1) 有什么区别？

两者都返回每组第一行的 DataFrame 在阅读 API 参考时它首先说计算第一组值但是当并排查看两个输出时我没有发现重大差异我错过了什么吗 df pd DataFrame id 1 1 1 2 2 3 3 3 3 4 4 5

groupby.first() 和 groupby.head(1) 有什么区别？

groupby.first() 和 groupby.head(1) 有什么区别？ 的相关文章

随机推荐

热门标签

groupby.first() 和 groupby.head(1) 有什么区别？的相关文章