agg函数加入进度条

2023-11-13

在panda之中，我们经常需要使用到agg函数来将pandas之中的某几列聚合起来

from tqdm import tqdm
import pandas as pd
import numpy as np
df = pd.DataFrame({"A":[1.0, 2.0, 3.0, 1.0, 2.0, 3.0, 1.0, 2.0, 3.0], 
                   "B":[1.0, 1.0, 1.0, 2.0, 2.0, 2.0, 3.0, 3.0, 3.0], 
                   "C":[1.0, 1.5, 2.0, 2.0, 3.0, 4.0, 5.0, 6.0, 10.0],
                   "D":[2.0, 5.0, 3.0, 6.0, 4.0, 2.0, 5.0, 1.0, 2.0],
                   "E":['a', 'a', 'b', 'a', 'b', 'b', 'b', 'a', 'a']}) 

df2 = df.groupby('B').agg({
                           'C': 'mean',
                           'D': 'sum',
                           'E': lambda x: x.mode()
                         })
print(df2)

这里可以自定义list并加入进度条

agger = {
   'C': 'mean',
   'D': 'sum'}
   #'E': lambda x: x.mode()}
#加上'E'会报错:cannot perform both aggregation and transformation operations simultaneously
#这里的'E'为transformation opertions操作

gcols = ['B'] # columns defining the groups
groupby = df.groupby(gcols)

ngroups = len(groupby)
gfrac = 0.3 # fraction of groups for which you want to print progress
gfrac_size = max((1, int(ngroups*gfrac)))
#gfrac为比例,这里为0.3,ngroups为总的长度
#下面也就是将agg函数进行实现了一下
groups = []
rows = []
for i,g in tqdm(enumerate(groupby),total=len(groupby)):
    r"""
    i = 0,
    g = 
    (1.0,         A       B      C     D     E
      0          1.0     1.0    1.0   2.0    a
      1          2.0     1.0    1.5   5.0    a
      2          3.0     1.0    2.0   3.0    b)
    """
    gstats = g[1].agg(agger)
    r"""
    g[1] = 
         A    B    C    D   E
     0  1.0  1.0  1.0  2.0  a
     1  2.0  1.0  1.5  5.0  a
     2  3.0  1.0  2.0  3.0  b
    gstats = 
     C  1.5
     D  10.0
    newcols = 
    ['C', 'D']
    groups = 
    [1.0]
    rows = 
    [<numpy.flatiter object at 0x21d18a0>]
    
    g[1]取出了上面整体数据的前三个对应值
    g[1] = 
         A    B    C    D   E
     3  1.0  2.0  2.0  6.0  a
     4  2.0  2.0  3.0  4.0  b
     5  3.0  2.0  4.0  2.0  b
    gstats = 
     C     3.0
     D    12.0
    newcols = 
    ['C', 'D']
    groups = 
    [1.0, 2.0]
    rows = 
    [<numpy.flatiter object at 0x21d18a0>,<numpy.flatiter object at ox21cc610>,<numpy.flatiter object at 0x21cd060>]

	同理g[1]取出了上面的三个对应值
	g[1] = 
    	A    B     C    D  E
	6  1.0  3.0   5.0  5.0  b
	7  2.0  3.0   6.0  1.0  a
	8  3.0  3.0  10.0  2.0  a
	gstats = 
	C    7.0
	D    8.0
	newcols = 
	['C','D']
	groups = 
	[1.0,2.0,3.0]
	rows = 
	[<numpy.flatiter object at 0x21d18a0>, <numpy.flatiter object at 0x21cc610>, <numpy.flatiter object at 0x21cd060>]
    """
    if i==0:
        if gstats.ndim==2:
            newcols = gstats.columns.tolist()
        else:
            newcols = gstats.index.tolist()
    r"""
    newcols = ['C','D']
    newcols = ['C','D']
    newcols = ['C','D']
    """
    groups.append(g[0])
    r"""
    groups = [1.0]
    groups = [1.0,2.0]
    groups = [1.0,2.0,3.0]
    """
    rows.append(gstats.values.flat)
    r"""
    rows = [<numpy.flatiter object at 0x21d18a0>]
    rows = [<numpy.flatiter object at 0x21d18a0>, <numpy.flatiter object at 0x21cc610>]
    rows = [<numpy.flatiter object at 0x21d18a0>, <numpy.flatiter object at 0x21cc610>, <numpy.flatiter object at 0x21cd060>]
    """

df3 = pd.DataFrame(np.vstack(rows), columns=newcols)
if len(gcols) == 1:
    df3.index = groups
else:
    df3.index = pd.MultiIndex.from_tuples(groups, names=gcols)
df3 = df3.astype(df[newcols].dtypes)

之前每一次得到结果[1.5,10.0],[3.0,12.0]之类的，都是将数值展平之后压入rows

rows.append(gstats.values.flat)

因此这里得到新的结果之后，应该将新的结果进行展开得到对应的DataFrame

df3 = pd.DataFrame(np.vstack(rows),columns=newcols)

并且这里每次得到的列名0.0,1.0,2.0依次压入groups之中

groups.append(g[0])

因此这里最后对df3进行操作

if len(gcols) == 1:
	df3.index = groups
else:
	df3.index = pd.MultiIndex.from_tuples(groups,names=gcols)

这里将对应的group赋值到df3上面，得到结果

		C		D
1.0    1.5    10.0
2.0    3.0    12.0
3.0    7.0     8.0

方法2

import pandas as pd
import numpy as np
df = pd.DataFrame({"A":[1.0, 2.0, 3.0, 1.0, 2.0, 3.0, 1.0, 2.0, 3.0], 
                   "B":[1.0, 1.0, 1.0, 2.0, 2.0, 2.0, 3.0, 3.0, 3.0], 
                   "C":[1.0, 1.5, 2.0, 2.0, 3.0, 4.0, 5.0, 6.0, 10.0],
                   "D":[2.0, 5.0, 3.0, 6.0, 4.0, 2.0, 5.0, 1.0, 2.0],
                   "E":['a', 'a', 'b', 'a', 'b', 'b', 'b', 'a', 'a']}) 

df2 = df.groupby('B').agg({
                           'C': 'mean',
                           'D': 'sum',
                           'E': lambda x: x.mode()
                         })
print(df2)

class ModeHack:

    def __init__(self, size=5, N=10):
        self.ix = 0
        self.K = 1 
        self.size = size
        self.N = N

    def mode(self, x):
        self.ix = self.ix + x.shape[0]
        if self.K*self.size <= self.ix:
            print('{:.0f}% complete'.format(100*self.ix/self.N))
            self.K += 1

        return x.mode()

    def reset(self):    
        self.ix = 0
        self.K = 1

mymode = ModeHack(size=int(.1*df.shape[0]), N=df.shape[0])
mymode.reset()

agger = {
   'C': 'mean',
   'D': 'sum',
   'E': lambda x: mymode.mode(x)}

df3 = df.groupby('B').agg(agger)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Java

后端

agg函数加入进度条的相关文章

任务“:app:dexDebug”执行失败

我目前正在处理我的项目我决定将我的 Android Studio 更新到新版本但在我导入项目后它显示如下错误 Information Gradle tasks app assembleDebug app preBuild UP TO
java中的csv到pdf文件

我正在尝试获得一个csv文件解析为pdf 到目前为止我所拥有的内容附在下面我的问题是这段代码最终出现在 pdf 中的文件在 csv 文件的第一行被截断我不明白为什么附示例本质上我想要一个没有任何操作的 csv 文件的 pdf 版本
由于连接超时，无法通过 ImageIO.read(url) 获取图像

下面的代码似乎总是失败 URL url new URL http userserve ak last fm serve 126 8636005 jpg Image img ImageIO read url System out printl
使用 Checkstyle Plugin 时从插件调用代码时出现问题：“org.eclipse.jface”

我正在尝试在 Rational Software Architect 7 0 0 4 上使用 eclipse cs 插件我最近卸载了旧的 beta2 版本并安装了 beta3 插件本身按照之前的配置工作但是每当我尝试通过 Windows
使用 Spring 时实例化对象，用于测试与生产

使用 Spring 时应该使用 Spring 配置 xml 来实例化生产对象并在测试时直接实例化对象这样的理解是否正确 Eg MyMain java package org world hello import org springf
MI设备中即使应用程序被杀死，如何运行后台服务

您好我正在使用 alaram 管理器运行后台服务它工作正常但对于某些 mi 设备后台服务无法工作我使用了服务但它无法工作如何在 mi 中运行我的后台服务 MI UI有自己的安全选项所以你需要的不仅仅是上面提到的粘性服务你需
Android - 除了普通 SSL 证书之外还验证自签名证书

我有一个通过 SSL 调用 Web 服务的 Android 应用程序在生产中我们将拥有由受信任的 CA 签名的普通 SSL 证书但是我们需要能够支持自签名证书由我们自己的 CA 签名我已经成功实施了接受自签名证书的建议解决方案
使用 Java 在浏览器中下载 CSV 文件

我正在尝试在 Web 应用程序上添加一个按钮单击该按钮会下载一个 CSV 文件该文件很小大小仅约 4KB 我已经制作了按钮并附加了一个侦听器文件也准备好了我现在唯一需要做的就是创建单击按钮时下载 csv 文件的实际事件假设 fi
如何将 XMP XML 块序列化为现有的 JPEG 图像？

我有许多 JPEG 图像其中包含损坏的 XMP XML 块我可以轻松修复这些块但我不确定如何将固定数据写回图像文件我目前正在使用 JAVA 但我愿意接受任何能让这项任务变得容易的事情这是目标关于 XMP XML 的另一个问题
cucumber-junit-platform-engine 中的功能文件发现

In cucumber junit我使用的库 CucumberOptions定义功能文件位置 package com mycompany cucumber import cucumber api CucumberOptions import
参数动态时如何构建 JPQL 查询？

我想知道是否有一个好的解决方案来构建基于过滤器的 JPQL 查询我的查询太富有表现力我无法使用 Criteria 就像是 query Select from Ent if parameter null query WHERE fiel
从 html 页面和 javascript 调用 java webservice

我正在尝试从 javascript 调用 java 实现的 Web 服务使用 NetBeans IDE 我读过很多关于 jQuery 和 AJAX 的内容但我似乎无法掌握它假设我的 Web 服务 WSDL 位于 http localh
OpenJDK 版本控制

上下文我想确保我们系统上安装的 Java 不受 CVE 2022 21449 的影响 java version 给出 openjdk version 11 0 7 2020 04 14 LTS OpenJDK Runtime Enviro
将 RSA 密钥从 BigIntegers 转换为SubjectPublicKeyInfo 形式

WARNING 最初的问题是关于 PKCS 1 编码密钥而问题中的实际示例需要SubjectPublicKeyInfo X 509 编码密钥我目前正致力于在 java 中从头开始实现 RSA 算法特别是密钥生成方面现在我的代码可以给
ExceptionHandler 不适用于 Throwable

我们的应用程序是基于 Spring MVC 的 REST 应用程序我正在尝试使用 ExceptionHandler 注释来处理所有错误和异常 I have ExceptionHandler Throwable class public R
从java中的字符串数组中删除空值

java中如何从字符串数组中删除空值 String firstArray test1 test2 test4 我需要像这样没有 null 空值的 firstArray String firstArray test1 test2 test4
如何移动图像（动画）？

我正在尝试在 x 轴上移动船还没有键盘我如何将运动动画与boat png而不是任何其他图像 public class Mama extends Applet implements Runnable int width height i
Path2D 上的鼠标指针检测

我构建了一个Path2D http docs oracle com javase 7 docs api java awt geom Path2D html表示由直线组成的未闭合形状我希望能够检测何时单击鼠标并且鼠标指针靠近路径在几个像素
如何将实例变量传递到 Quartz 作业中？

我想知道如何在 Quartz 中外部传递实例变量下面是我想写的伪代码如何将 externalInstance 传递到此作业中 public class SimpleJob implements Job Override public v
MongoDB Java 驱动程序：MongoCore 驱动程序与 MongoDB 驱动程序与 MongoDB 异步驱动程序

MongoDB Java 驱动程序有三种不同的驱动程序选项核心驱动 MongoDB 驱动程序 MongoDB 异步驱动程序 The 驱动程序描述页面 https docs mongodb org ecosystem drivers jav

随机推荐

R语言与机器学习中的回归方法学习笔记

机器学习中的一些方法如决策树随机森林 SVM 神经网络由于对数据没有分布的假定等普通线性回归模型的一些约束预测效果也比较不错交叉验证结果也能被接受下面以R中lars包包含数据集diabetes为例说明机器学习中的回归方法一数据集
JAVA根据模板生成Word文档

一需要模板word文件和document xml模板配置文件首先把word文件重命名后缀改为 zip然后打开就能在word文件夹下就能找到document xml了在document xml模板中需要赋值的地方配置好占位符二导入
CNN调参

一学习率学习率决定了每步权重更新对当前权重的改变程度其中E w 为我们优化的损失函数是学习率学习率太小更新速度慢学习率过大可能跨过最优解因此在刚开始训练距离最优解较远时可以采用稍大的学习率随着迭代次数增加在逼近最优
自动化测试框架rf（Robot Framework）的安装

2022了还没自己装过rf 网上找了不少文章或多或少都跟本地环境不太一下作为新手把安装过程做一次记录分享仅供参考首先帖一下我自己电脑的基本情况下面就开始吧一 JAVA环境安装现在基本都是java8以上了所以建议到官网下
Node.js中gulp插件的安装使用

1 Node js说明 gulp是用JavaScript语言编写的运行在Node js平台开发的前端构建工具是前端开发人员自动处理日常任务的首选工具 gulp cli 启动构建工具的命令行接口本地gulp 构建时实际运行的程序 gulp
[OLED] 利用stm32开发板控制OLED

一 OLED的介绍 OLED 即有机发光二极管 Organic Light Emitting Diode 又称为有机电激光显示 Organic Electroluminesence Display OELD OLED由于同时具备自发光不需
连续时间、离散时间信号、模拟和数字信号辨析

连续时间和离散时间信号一个信号它是在时间t的连续值上给出的就是一个连续时间信号而一个信号仅在t的离散值上给出则是一个离散时间信号模拟和数字信号凡一个信号的幅度在某一连续范围内能够取到任何值的信号就是模拟信号这意味着一个模拟信号
牛客 124G--组合游戏

链接 https www nowcoder com acm contest 124 G来源牛客网题目描述 2018年4月8日星期日小龙沉迷于一个叫做组合的游戏游戏规则是这样的原本有一个长度为A的大木板现在把它分成了n份长度可能不
Excel如何排序？掌握3种排序方法！

我是个刚开始学习Excel的新手对很多Excel的知识都不太熟悉今天使用Excel进行表格排序时我又遇到了一些问题请问Excel如何排序呢希望给我一些建议在Excel中排序是一种常见且有用的数据处理操作它可以帮助您按照特定的规
Unbutn20+cuda11+Qt下配置

首先装CUDA 具体查看其它博客这里主要介绍如何配置 CONFIG console TARGET test Define output directories CUDA OBJECTS DIR This makes the cu file
面了个阿里拿36K出来的，真是砂纸擦屁股，给我漏了一手

今年的春招已经结束很多小伙伴收获不错拿到了心仪的 offer 各大论坛和社区里也看见不少小伙伴慷慨地分享了常见的面试题和八股文为此咱这里也统一做一次大整理和大归类这也算是划重点了俗话说得好他山之石可以攻玉多看多借鉴还是有帮助
js实现图片预加载

什么是预加载当页面打开图片提前加载而且缓存在用户本地需要用届时直接进行烘托在浏览图片较多的网页百度图库淘宝京东等能够有更好的用户体会一张图片的预加载 var img new Image img addEventListene
pandas 导入excel_小白学 Python 数据分析（7）：Pandas （六）数据导入

人生苦短我用 Python 前文传送门小白学 Python 数据分析 1 数据分析基础小白学 Python 数据分析 2 Pandas 一概述小白学 Python 数据分析 3 Pandas 二数据结构 Series 小白学 P
echarts 生成的canvas只有100px的问题

在开发中遇到一个问题使用echarts的时候生成的canvas宽度不是实际写入的宽度后面发现因为使用了el tabs 存在echarts的tab页在刚开始处于display none 所以echarts拿不到页面的宽度解决办法在
Burp suite ——爆破账户密码（含爆破token防爆破）

此文章仅供交流学习使用目录爆破普通账户密码设置环境处理burp suite的抓包数据开始爆破爆破token防爆破账户密码设置环境处理抓包数据开始爆破爆破普通账户密码设置环境 1 打开火狐访问此网站更改代理火狐浏览器
【RocketMQ】消息重试、重试次数设置、死信队列

文章目录 1 死信队列 1 1 死信特性 1 2 查看死信消息 2 重试次数参数 2 1 Producer端重试 2 2 Consumer端重试 3 1 异常重试 3 2 超时重试参考 1 死信队列上一篇 RocketMQ 消息重试中我
OpenCL并行编程基础第六章 OpenCL事件和队列

任务队列允许程序员通过编辑直接创建管理和调度任务队列中的命令按提交命令的顺序执行队列中的吓一跳命令必须等待当前命令执行完后才能开始执行不同命令队列的先后执行顺序得不到保证 6 1 命令命令队列和事件命令队列保证FIFO 启动顺序
The selected directory is not a valid home for Go SDK

在GoLand中配置GOROOT的时候出现该错误 The selected directory is not a valid home for Go SDK Go的版本是1 4 2 GoLand 版本是2021 1 3 可能是版本问题更
自媒体如何使用ChatGPT提高效率

文章目录自媒体公司如何充分利用ChatGPT提高效率自媒体公司使用ChatGPT提高效率的具体案例训练ChatGPT 让它更懂你创作者全栈弄潮儿个人主页全栈弄潮儿的个人主页个人社区欢迎你的加入全栈弄潮儿的个人社区专栏地
agg函数加入进度条

在panda之中我们经常需要使用到agg函数来将pandas之中的某几列聚合起来 from tqdm import tqdm import pandas as pd import numpy as np df pd DataFrame A

agg函数加入进度条

方法2

agg函数加入进度条 的相关文章

随机推荐

热门标签

agg函数加入进度条的相关文章