循环分组依据、聚合并根据组创建新列

2024-02-27

我正在尝试获取学生专栏，根据他们的进度水平来统计活动。

Data looks like


STUDENT_ID STUDENT_ACTIVITY_SESSION_ID NODE_NAME   ACTIVITY_NAME   prog_level
FredID  gobbledeegook1  Node1   MyActivity1 pass
FredID  gobbledeegook2  Node1   MyActivity1 pass
FredID  gobbledeegook3  Node2   MyActivity2 pass
JaniceID    gobbledeegook4  Node3   MyActivity3 stay
JaniceID    gobbledeegook5  Node3   MyActivity3 stay
JaniceID    gobbledeegook5  Node3   MyActivity3 fail

Here is what I want:


STUDENT_ID attempts_pass   attempts_fail   attempts_stay
FredID  3       
JaniceID        1   2

我尝试循环遍历，以便变量名称是自动的。我希望每一行都是一个 STUDENT_ID，计数是一列

def std_attempts_by_prog_level(df):
    dict_fields = {}
    df_by_prog_level = df.groupby('prog_level')['STUDENT_ACTIVITY_SESSION_ID']
    for name, group in df_by_prog_level:
        x = group.count() 
        dict_fields["attempts_" + name] = x

    return pd.Series(dict_fields)     
  
df.groupby('STUDENT_ID').apply(std_attempts_by_prog_level).reset_index()

result:


STUDENT_ID level_1 0
0   Fred    attempts_cancel 104
1   Fred    attempts_fail   96
2   Fred    attempts_in_progress    30

...所以这需要进行旋转和混乱，所以我尝试从旋转方法中获取它

枢轴方法并手动命名字段：生成的多索引不会让我轻松地与其他学生指标合并回来

df_temp=df.groupby(['STUDENT_ID', 'prog_level'],as_index=False)['STUDENT_ACTIVITY_SESSION_ID'].count().pivot(index='STUDENT_ID', columns='prog_level').rename({'cancel':'attempts_cancel', 'fail':'attempts_fail', 'in_progress':'attempts_in_progress', 'pass':'attempts_pass'}, axis=1)

print(df_temp.columns)

result:

MultiIndex([('STUDENT_ACTIVITY_SESSION_ID',      'attempts_cancel'),
            ('STUDENT_ACTIVITY_SESSION_ID',        'attempts_fail'),
            ('STUDENT_ACTIVITY_SESSION_ID', 'attempts_in_progress'),
            ('STUDENT_ACTIVITY_SESSION_ID',        'attempts_pass')],
           names=[None, 'prog_level'])

你可以使用.pivot_table https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.pivot_table.html:

result = df.pivot_table(
    index="STUDENT_ID", columns="prog_level", values="ACTIVITY_NAME",
    aggfunc="count", fill_value=0
).rename(lambda c: f"prog_level_{c}", axis=1).rename_axis(None, axis=1)

Result:

            prog_level_fail  prog_level_pass  prog_level_stay
STUDENT_ID                                                   
FredID                    0                3                0
JaniceID                  1                0                2

如果您希望索引作为列，则添加.reset_index()在管道的末端。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

groupby

Pivot

循环分组依据、聚合并根据组创建新列的相关文章

Python argparse 作为函数

以这种方式获取命令行参数有什么本质上的错误吗我的意思是把参数解析放入它自己的函数中它会被认为是非 Pythonic 或更严重吗 usr bin python import argparse def getArgs argv None p
使用 JPype - 如何访问 JDBC 元数据函数

我在用着杰德贝API https launchpad net jaydebeapi它使用 JPype 加载 FileMaker 的 JDBC 驱动程序并提取数据但我也希望能够获取所有表的列表在数据库中 In the JDBC 文档 ht
让 Django 提供可下载文件

我希望网站上的用户能够下载路径被遮挡的文件因此无法直接下载它们例如我希望 URL 是这样的 http example com download f somefile txt 在服务器上我知道所有可下载的文件都位于该文件夹中 home
熊猫加入具有不同索引级别/日期时间的数据帧？

嗨我有两个 DataFrame 如下所示 dineType menuName unique columns date y m d
Python 正则表达式从文本中提取域

我有以下正则表达式 r a zA Z0 9 a zA Z0 9 61 a zA Z0 9 a zA Z 2 6 当我将其应用于文本字符串时比方说这是 www website1 com 这是 website2 com 我得到 www we
Python 错误：将 statsmodels 与一行数据一起使用时，对象的 len() 未调整大小

我可以使用 statsmodel 的 WLS 加权最小二乘回归 http statsmodels sourceforge net devel generated statsmodels regression linear model WLS
如何将数据从 JavaScript 发送到 Python

我正在 jinja2 和 python2 7 上使用 GAE 进行 Web 开发我可以从Python获取数据但我无法将数据从 JavaScript 发送到 Python 这是 JavaScript 代码 function toSave
打开文件路径在 python 中不起作用[重复]

这个问题在这里已经有答案了我正在编写一个数据库程序 personica 是我的测试主题我通常在文件路径的位置有一个变量但出于测试和演示的目的我只有一个字符串在我的计算机上的这个确切位置有一个文本文件顺便说一句因为我很偏执所以
python：numpy 运行脚本两次

当我将 numpy 导入到 python 脚本中时该脚本会执行两次有人可以告诉我如何阻止这种情况因为我的脚本中的所有内容都需要两倍的时间这是一个例子 usr bin python2 from numpy import print t
如何使用格式保存 Tkinter 文本小部件的内容

我在 python 中使用 Tkinter 在文本窗口中显示输出我发现使用 get 功能我可以从此窗口检索文本内容但我有用不同背景颜色标记的文本部分是否可以将内容与这些颜色一起复制到文件例如 html 或 doc 中没有对你想要的
使用 scipy、python、numpy 进行非线性 e^(-x) 回归

下面的代码为我提供了一条最佳拟合线的平坦线而不是沿着 e x 模型的一条适合数据的漂亮曲线谁能告诉我如何修复下面的代码以使其适合我的数据 import numpy as np import matplotlib pyplot as pl
使用 Python 打开新窗口时，selenium window_handles 不正确

我想使用 selenium 和 Python 在一个浏览器中打开多个选项卡并通过多个选项卡同时抓取实时投注赔率网站主页生成游戏列表但是除非您找到游戏元素并使用 click 该网站是 ajax 密集型否则无法获取游戏链接这会在同一
如何在 Django 中像应用程序一样从配置中注册 Flask 蓝图？

如何从我的配置中注册 Flask 蓝图就像 Django 中的应用程序一样我想在配置文件中定义蓝图它将自动注册 config py BLUEPRINTS news files 实际上我一直在一个暂定名为的项目中勾勒出类似的东西臀部口袋
将具有多个时区的 pandas 列转换为单个时区

Problem 我在 pandas DataFrame 中有一个列其中包含带有时区的时间戳此列中有两个不同的时区我需要确保只有一个这是该列末尾的输出 260003 2019 05 21 12 00 00 06 00 260004 2
NumPy 根据另一个数组中的值对第三个数组中的每个匹配元素求和一个数组

我有两个 numpy 数组一个包含值另一个包含每个值类别 values np array 1 2 3 4 5 6 7 8 9 10 valcats np array 101 301 201 201 102 302 302 202 102
如何在 Windows 7 中使用 Python 廉价地创建非常大的文件？ [复制]

这个问题在这里已经有答案了可能的重复在Windows系统上快速创建大文件 https stackoverflow com questions 982659 quickly create large file on a windows s
如何单独捕获这些异常？

我正在编写一个与 Quickbooks 交互的 Python 程序连接到 Quickbooks 时根据问题的不同我可能会遇到以下两个常见异常之一 pywintypes com error 2147352567 Exception oc
内置模块位于哪里？

我尝试查找列出的所有目录sys path但我找不到任何builtins py文件那么它在哪里呢从字面上看该模块内置于 python 解释器中 gt gt gt import builtins gt gt gt builtins
Pandas 数据框可对多列和要列出的值进行字典

我有一个数据框 id key a1 1 a2 1 a3 1 a4 2 a5 2 a6 3 我想创建一本字典key作为机器号并且id列作为列表 like 1 a1 a2 a3 2 a4 a5 3 a6 我可以先使用 groupby 然后再使
如何使用 PySpark 预处理图像？

我有一个项目需要为 1 设置大数据架构 AWS S3 SageMaker 的概念验证使用 PySpark 预处理图像 2 执行 PCA and 3 训练一些机器或深度学习模型我的问题是了解如何使用 PySpark 操作图像数据但无法在

随机推荐

通过 WCF 服务传递枚举

我需要在与我的 WCF 服务项目分开的项目中定义一个枚举我正在创建一个包含枚举和其他数据的对象当我通过 WCF 服务将对象传递给客户端时我得到一个未找到的信息 Enum public enum Color Red 1 Blue Gre
Terraform 上出现“无效的旧提供商地址”错误

我正在尝试使用 terraform v0 14 3 部署 bitbucket 管道以在谷歌云中创建资源运行 terraform 命令后管道失败并出现以下错误 Error Invalid legacy provider address T
如何防止滑动触发点击？

I use 触摸滑动 http labs rampinteractive co uk touchSwipe demos 创建可滑动的图像列表我将滑动事件绑定到图像同时我还绑定了一个单击事件来打开图像的大版本我的问题是如果我滑动它也
什么是换行转换？

当您尝试将值从一种类型转换为另一种不兼容的类型时您会在 C 中收到以下错误 CS0039 无法通过引用转换装箱转换拆箱转换包装转换或 null 类型转换将类型 A 转换为 B 我了解如何潜在地解决此问题但我的问题是关于转换本身的类
Rails 迁移使列为 null => true

我最初创建了一个表其中列为 t string email default gt null gt false 要求已更改现在我需要允许电子邮件为空如何编写迁移以使 null gt true change column null http
根据向量更改列的类别

我有 2 个数据框主要的一个df 另一个数据框tmp它描述了列类型df和新格式应转换哪些列这是一个可重现的示例 df lt data frame var1 c a b c var2 c 1 2 3 var3 c d e f tmp lt
Clojure 的惰性如何与 Java/不纯代码的调用交互？

今天我们在代码中偶然发现了一个问题无法回答这个 Clojure 问题 Clojure 是严格还是惰性地评估不纯代码或对 Java 代码的调用似乎副作用惰性序列会导致奇怪的行为以下是我们所知道的导致这个问题的信息 Clojure 有
formfield_for_foreignkey 和内联管理

我只想展示特定比赛中与球队相关的球员通常当我这样做时它会向我显示数据库中的所有球员这是我的 models py class InningsCard models Model fixture models ForeignKey Fix
构建 Django Webapp 前端的“最佳”方法是什么？ [关闭]

Closed 这个问题是基于意见的 help closed questions 目前不接受答案提前致谢这更像是一个哲学问题而不是直接请求对代码的意见尽管我非常感谢任何人对代码示例的输入从我记事起我就一直是一名传统开发人员
在 iOS 7 中设置 UINavigationBar 动画（如 Safari）

在 Safari 中滚动内容时标题栏会以动画形式显示为较小版本实现这一点的最佳方法是什么目前我正在更改框架的大小如下所示 void scrollViewDidScroll UIScrollView scrollView Table
发送电子邮件需要设置哪些 php.ini 参数？ [复制]

这个问题在这里已经有答案了我想从我的 PHP 代码发送电子邮件但收到警告消息那么 php ini 参数要设置哪些呢要检查更改您的 PHP 邮件配置打开 php ini 文件如果您不知道它在哪里请参见下文搜索显示为邮件功能
Visual Studio 2010 关闭确认

我希望VS2010在我关闭整个环境时询问我是否确定要关闭VS2010 不幸的是我在任何地方都找不到这个设置有人知道吗 AFAIK 没有这样的选择然而有一个古老的工具叫做NoClose http www donationcoder c
如何在 HTML 中实现“全选”复选框？

我有一个带有多个复选框的 HTML 页面我还需要一个名为全选的复选框当我选择此复选框时必须选择 HTML 页面中的所有复选框我怎样才能做到这一点
从 iframe 中重定向到

我有一个 Rails 应用程序它有一个在 iframe 中呈现的表单并且从我想要的创建操作中redirect to在 iframe 之外并重新渲染整个页面而不是在 iframe 中我很好奇有什么想法可以实现这一目标你能行的你必须
使用 SymPy codegen 为方程组生成 Fortran 子例程

以我发现的以前的例子为基础here https stackoverflow com questions 25327845 how to generate fortran subroutine with sympy codegen 我尝试找出
如何在 WordPress 中将 HTML 表单中的数据保存到数据库表中？

我有一个 WordPress 主题我正在尝试将 HTML 表单中的数据保存到数据库中我制作了 HTML 表单并添加了一个保存并关闭按钮该按钮调用名为的 JavaScript 函数saveData 从表单中获取数据并将其发送到add
如何删除 Apple APNS 反馈收到的设备令牌

我成功通过 PHP 获取 Apple APNS 反馈数据我得到的结构经过一些处理看起来像这样时间戳设备令牌我的问题是如何知道应该从数据库中删除哪些设备令牌并停止向它们发送通知 Regardz Mladjo 时间戳是这里的关键元素
如何从React中的函数参数设置状态[重复]

这个问题在这里已经有答案了我将名称和值从子组件传递给handleChange 函数现在我想将状态设置为与提供的名称匹配的值但我不知道如何设置我尝试了这种方式但它给出了错误 this setState 不是函数 class Pare
MySQL 作业启动失败

我在 Kubuntu 12 04 上通过 apt get 安装 mysql mysql 版本 5 5 35 后我尝试启动 mysql 服务但出现此错误 sudo 服务 mysql 启动开始作业启动失败所以我用谷歌搜索了这个问题
循环分组依据、聚合并根据组创建新列

我正在尝试获取学生专栏根据他们的进度水平来统计活动 Data looks like STUDENT ID STUDENT ACTIVITY SESSION ID NODE NAME ACTIVITY NAME prog level Fre

循环分组依据、聚合并根据组创建新列

循环分组依据、聚合并根据组创建新列 的相关文章

随机推荐

热门标签

循环分组依据、聚合并根据组创建新列的相关文章