list 分组_学习笔记系列_10_数据聚合与分组操作

2023-11-18

# 开篇导包

一、数据聚合 —— df.groupby()详解

DataFrame

参数：

by: 用作分组的条件对象。（mapping, function, label, or list of labels）
axis: 轴方向。（{0 or ‘index’, 1 or ‘columns’}, default 0）
level: 索引层级，针对多层索引。（int, level name, or sequence of such, default None）
as_index: 是否把分组后的组标签作为索引。（bool, default True）
sort: 是否对分组标签进行排序。（bool, default True）
group_keys: 调用apply时，是否将组键添加到索引以标识片段。（bool, default True）
squeeze: 是否对返回值进行维度压缩。(bool, default False)
observed: 是否显示所有分类值。（bool, default False）
dropna: 是否删除组键里的NA值。（bool, default True）

返回值：

DataFrameGroupBy

（一）参数详解

1. by参数

# 导入案例数据

输出：

1.1 传入单个label

# 传入单个label

输出：

1.2 传入多个label

# 传入多个label

输出：

1.3 传入一个映射关系mapping

# 传入一个映射关系mapping

输出：

1.4 传入一个function

grp

输出：

2. axis参数

# 导入案例数据

输出：

3. level参数

# 导入案例数据

输出：

4. as_index参数

# 导入案例数据

输出：

5. sort参数

# 导入案例数据

输出：

6. group_keys

group_keys 参数在 apply 操作中很方便,它创建了一个与分组标签[group_keys=True]相对应的额外索引列。

# 导入案例数据

输出：

7. squeeze参数（新版本已经移除，可略过）

df1

输出：

8. observed参数（新增，没有搞清楚有啥用处，待补充）

# 导入案例数据

输出：

9. dropna参数

# 导入案例数据

输出：

（二）df.groupby() 与 agg方法的联合使用

# 导入案例数据

输出：

# 1

输出：

# 2

输出：

# 3

输出：

（三）df.groupby() 与 apply方法的联合使用

# 导入案例数据

输出：

# 1

输出：

# 如果传入的函数还有其他参数的话，可以把这些参数放在函数后进行传递

输出：

（四）df.groupby() 与 pd.cut()方法的联合使用

# 导入案例数据

输出：

# 分箱

输出：

示例

pass

二、数据透视

（一）pd.pivot_table()

pandas

参数：

data: 目标DataFrame
values: 需要聚合的列名，默认情况下聚合所有数值型的列
index: 在结果透视表的行上进行分组的列名或者其他分组键（column, Grouper, array, or list of the previous）
columns: 在结果透视表的列上进行分组的列名或者其他分组键（column, Grouper, array, or list of the previous）
aggfunc: 对数据进行聚合时的函数（function, list of functions, dict, default numpy.mean）
fill_value: 用来替换结果表中缺失值的值（scalar, default None）
margins: 是否添加行/列小计和总计（bool, default False）
dropna: 是否删除所有条目均为NaN的列（bool, default True）
margins_name: 小计和总计行/列的名字（str, default ‘All’）
observed: 是否显示所有分类值（bool, default False）

返回值：

DataFrame: An Excel style pivot table.

# 导入案例数据

输出：

# index and values

输出：

# columns

输出：

# aggfunc

输出：

# fill_value

输出：

# margins and margin_name

输出：

pd.crosstab()

pandas

参数：

index: 在结果透视表的行上进行分组的列（array-like, Series, or list of arrays/Series）
columns: 在结果透视表的列上进行分组的列（array-like, Series, or list of arrays/Series）
values: 进行聚合的目标列，需要同时传入aggfunc参数（array-like, optional）
rownames: 结果透视表中行索引的名称，需要与index参数中的数量保持一致（sequence, default None）
colnames: 结果透视表中列索引的名称，需要与columns参数中的数量保持一致（sequence, default None）
aggfunc: 聚合函数（function, optional）
margins: 是否添加行/列小计和总计（bool, default False）
margins_name: 小计和总计行/列的名字（str, default ‘All’）
dropna: 是否删除所有条目均为NaN的列（bool, default True）
normalize: 是否进行标准化（bool, {‘all’, ‘index’, ‘columns’}, or {0,1}, default False）
- If passed ‘all’ or True, will normalize over all values.
- If passed ‘index’ will normalize over each row.
- If passed ‘columns’ will normalize over each column.
- If margins is True, will also normalize margin values.

返回值：

DataFrame: Cross tabulation of the data.

# 导入案例数据

输出：

# index、columns、values、aggfunc、rownames、columns、margins、margins_name

输出：

# normalize

输出：

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

list 分组

使用group by 数据变慢

list 分组_学习笔记系列_10_数据聚合与分组操作的相关文章

php 解析 %e5%80%aa%e9%a3%9e,content.json

title Linux安装Docker date 2020 11 08T14 54 29 000Z path 2020 11 08 Linux安装Docker tags name Linux Docker slug Linux Docker
loC和AOP使用扩展

6 1多种方式实现依赖注入 6 1 1构造注入 6 1 2技能训练1 6 1 3使用p命名空间实现属性注入 Spring配置文件从2 0版本开始采用schema形式使用不同的命名空间管理不同类型的配置使得配置文件更具扩展性列如我们曾使
[Python]pip查找包的历史版本

pip查找包的历史版本场景在一些时候通过pip install xxx 安装第三方库的时候默认情况下安装最新版本由于是最新版本有个稳定性就不得不考虑其中所以部分场景会存在一些bug这就要求我们安装历史版本对一些更新频率比较高的三方
Window&linux使用换行符的问题总结

1 Window使用Git时设置换行符格式参见 https www jianshu com p 6ef90ce18ba2 2 vi下设置回车换行符等特殊符号换行方式在早期的打印机时代开始新的一行要占用两个字符的时间如果到了一行的
java.lang.UnsatisfiedLinkError

java lang UnsatisfiedLinkError 原因 jni注册的时候匹配写错了 I B B 如下 static JNINativeMethod methods native getSps I B B void Native
Keras保存模型并载入模型继续训练

我们以MNIST手写数字识别为例 import numpy as np from keras datasets import mnist from keras utils import np utils from keras models
PyQt5中的按钮3-QCommandLinkButton

PyQt5中的按钮3 QCommandLinkButton QCommandLinkButton介绍 QCommandLinkButton举例 QCommandLinkButton介绍 CommandLinkButton 外观像是一个被设置
verilog赋多位值_关于verilog 赋值

1 wire表示直通即只要输入有变化输出马上无条件地反映 reg表示一定要有触发输出才会反映输入 2 只有 lt 表示非阻塞给沿触发的寄存器赋值是阻塞赋值给电平触发的信号赋值 3 不指定就默认为1位wire类型专门指定出wir
计算机视觉论文-2021-07-19

本专栏是计算机视觉方向论文收集积累时间 2021年7月19日来源 paper digest 欢迎关注原创公众号计算机视觉联盟回复西瓜书手推笔记可获取我的机器学习纯手推笔记直达笔记地址机器学习手推笔记 GitHub地址 1 T
在struts1.1框架下，利用smartupload实现文件的上传（可以是多个文件）

1 前端页面upload jsp 后台处理程序UplodAction java 2 struts config的配置参数如下没有设置 ActionForm
JAVA的WebService规范(支持)

SOA Service Oriented Architecture 面向服务架构是一种思想它将应用程序的不同功能单元通过中立的契约独立于硬件平台操作系统和编程语言联系起来使得各种形式的功能单元更好的集成目前来说 WebServi
windows7旗舰版 appium环境搭建

1 安装jdk 8u171 windows x64 exe 注意配置环境变量参考资料 https jingyan baidu com article 6dad5075d1dc40a123e36ea3 html java version 查
Modbus RTU协议各知识点入门 + 实例

文章目录 1 起因 2 几个重点 2 1 一些难懂的概念 2 2 CRC的高低位 2 3 其他 3 介绍 3 1 起源 3 2 分类 4 格式 4 1 串口协议 4 2 帧格式 5 数据类型 6 功能码 7 CRC16 modbus 8 实
React(Hook介绍)

为什么要用Hook 介绍Hooks之前首先要给大家说一下React的组件创建方式一种是类组件一种是纯函数组件并且React团队希望组件不要变成复杂的容器最好只是数据流的管道开发者根据需要组合管道即可也就是说组件的最佳写法应
如何在 CentOS 8 上安装 Python 3.8

本文来自于阿里云官方镜像站 https developer aliyun com mirror utm content g 1000307095 原文链接 https developer aliyun com article 756221
报错java.lang.Long cannot be cast to java.lang.Integer解析

用博客记录工作中出现的问题给自己一个提醒也给其他朋友一些借鉴报错 java lang Long cannot be cast to java lang Integer Long 无法转化成Integer类型这个异常经常出现在hin
正确理解Widget::Widget(QWidget *parent) :QWidget(parent)这句话

该如何理解下面段代码的第二行QWidget parent 1 Widget Widget QWidget parent 2 QWidget parent 3 4 在讲解原因之前先请大家看下面的一个例子 include
git切换分支时报错（error: pathspec ‘master‘ did not match any file(s) known to git.）的解决方法

git切换分支时报错切换分支 root git my code git checkout master 产生如下报错 error pathspec master did not match any file s known to git

随机推荐

用 Python 爬取网红城市大长沙！

这两天获取了两份关于长沙的数据长沙景点和长沙美食之后进行了分析如果有朋友想去长沙或者周边城市玩要仔细看看喔导入库长沙景点数据获取长沙景点的数据获取方法和之前那篇关于厦门的文章是一样的只是重新跑了一遍代码具体过程不再阐述
HADOOP集群搭建

安装步骤机器mini yum mini2 mini3 mini4 注意下面的步骤在4台机子上都要做的操作 1先将虚拟机的网络模式选为NAT 2修改主机名 vi etc sysconfig network NETWORKING yes H
git：kex_exchange_identification：Connection closed by 52.74.223.119 port 22

使用Rider的git进行push操作时提示 kex exchange identification Connection closed by remote host Connection closed by 52 74 223 119 p
AJAX 缓存处理

关于AJAX请求服务器后缓存数据造成没有及时刷新的问题最近在做项目的时候使用了ajax去请求服务器的数据刚开始还可以我测试一切运行正常我不是专业的测试人员哈所以还是有些问题没有测出来哈后来ajax请求的数据变化了但是页面数
设计模式之命令模式

在日常生活中我们常常会遇到这样一些问题需要向某些对象发送请求但是并不知道请求的接收者是谁也不知道被请求的操作是哪个我们只需在程序运行时指定具体的请求接收者即可此时可以使用命令模式来进行设计使得请求发送者与请求接收者消除彼此之
react 显示当前时间_react中monent如何获取日期？

方法 1 使用 npm install moment save 安装moment 2 在组件中使用import语句引入moment 3 使用monent提供的方法来获取日期例 moment format 获取当前时间本教程操作环境 wi
OneFlow 中的 Softmax

Softmax 是深度学习模型中的常见算子 PyTorch 的 Softmax 算子直接调用 cuDNN 的接口而 OneFlow 内部针对输入数据的类别数量采用3个 kernel 来分别处理在多数情况下都可以获得比 cuDNN 更优
【Git】（三）回退版本

1 git reset命令 1 1 回退至上一个版本 git reset hard HEAD 1 2 将本地的状态回退到和远程的一样 git reset hard origin master 注意谨慎使用 hard 参数它会删除回退点之
redis必杀高级：安全

题记我们可以通过 redis 的配置文件设置密码参数这样客户端连接到 redis 服务就需要密码验证这样可以让你的 redis 服务更安全例如设置密码查看是否设置了密码验证 127 0 0 1 6379 gt CONFIG ge
【Java日志】你真的知道怎么使用Java日志API吗？

你真的知道怎么使用Java日志API吗一背景二 Java日志API错误使用示例 1 占位符的错误使用示例 2 异常日志的错误使用示例三推荐一个学习Java日志的项目一背景在平时的开发过程中常常看到一些编码不规范的打印日志的
Flask读取RTSP视频流，及其简单的一个案例

Flask读取RTSP视频流及其简单的一个案例此章节包括通过是使用Flask可以实时地显示RTSP视频流代码确实非常简单源于Github 主要为为Nvidia Deepstream极致细节 3 Deepstream Python R
华为怎么显示返回按键_华为怎么把返回那三个键调出来

华为怎么把返回那三个键调出来其实这个方法一点都不难 1 首先在华为nova3的桌面找到设置并点击进入 2 点击打开系统 3 在系统菜单下点击进入系统导航 4 点击勾选屏幕内虚拟导航栏即可打开虚拟导航不勾选即可直接关闭虚拟导
vscode配置快捷键注释模板

文章目录前言一打开配置项 1 首选项编辑配置 2 新建代码片段 3 配置注释文件名二新建代码注释模板三注释使用前言本篇文章可以在vscode中配置快捷键显示代码的信息注释如作者描述创建时间等一打开配置项 1 首选
SD卡中FAT32文件格式快速入门（图文详细介绍）

说明 MBR Master Boot Record 主引导记录 DBR DOS Boot Record 引导扇区 FAT File Allocation Table 文件分配表硬件本文SD卡为Kingston 4GB FAT32格式簇
【Python】 Pandas数据导入与导出

数据读取 import pandas as pd data pd read csv data csv 读取数据文件 print data 数据索引与查看 x data loc x 读取表头为 x 的那一列的数据 print x y data
如何自学现代计算机科学(转）

简介这里收集了很多学习资源都是关于一些适合本科生学习的计算机科学话题 Topics 这里仅仅只提供话题列表而不会提供诸如知识点剖析练习题等内容如果你对某一个话题特别感兴趣想深入研究一下但又买不起文中提到的书籍实体书那
使用docker搭建FastDFS文件系统

使用docker搭建FastDFS文件系统 1 拉取fastdfs镜像 docker search fastdfs 这里要选择 delron fastdfs 镜像 docker pull delron fastdfs 2 启动容器 2 1
车祸相关公开数据集（免费下载）

Vehicle Collisions 纽约市机动车与人相撞背景描述这是 2021 年在纽约发生的人与机动车碰撞事故的数据仅过滤掉超过 1 000 美元的受伤或死亡案件总结了事件的日期和时间受伤的位置以及警方对事件的描述数据说明
Dubbo源码分析-Spring与Dubbo整合原理与源码分析（二）

Spring与Dubbo整合的整体流程基于apache dubbo 2 7 15 因为dubbo有较多的兼容以前的代码比如 DubboReference 以前就有两个版本 Reference 和 com alibaba dubbo con
list 分组_学习笔记系列_10_数据聚合与分组操作

开篇导包一数据聚合 df groupby 详解 DataFrame 参数 by 用作分组的条件对象 mapping function label or list of labels axis 轴方向 0 or index 1 or co

list 分组_学习笔记系列_10_数据聚合与分组操作

一、数据聚合 —— df.groupby()详解

（一）参数详解

1. by参数

1.1 传入单个label

1.2 传入多个label

1.3 传入一个映射关系mapping

1.4 传入一个function

输出：

2. axis参数

3. level参数

4. as_index参数

5. sort参数

6. group_keys

7. squeeze参数（新版本已经移除，可略过）

8. observed参数（新增，没有搞清楚有啥用处，待补充）

9. dropna参数

（二）df.groupby() 与 agg方法的联合使用

（三）df.groupby() 与 apply方法的联合使用

（四）df.groupby() 与 pd.cut()方法的联合使用

示例

二、数据透视

（一）pd.pivot_table()

pd.crosstab()

list 分组_学习笔记系列_10_数据聚合与分组操作 的相关文章

随机推荐

热门标签

list 分组_学习笔记系列_10_数据聚合与分组操作的相关文章