Pandas group-by 累加和的比例从0开始

2024-04-16

我有以下 pandas 数据框（没有最后 2 列）：

   name        day   show-in-appointment    previous-missed-appointments   proportion-previous-missed
0  Jack   2020/01/01   show                              0                      0
1  Jack   2020/01/02   no-show                           0                      0
2  Jill   2020/01/02   no-show                           0                      0
3  Jack   2020/01/03   show                              1                      0.5
4  Jill   2020/01/03   show                              1                      1
5  Jill   2020/01/04   no-show                           1                      0.5
6  Jack   2020/01/04   show                              1                      0.33
7  Jill   2020/01/05   show                              2                      0.66
8  jack   2020/01/06   no-show                           1                      0.25
9  jack   2020/01/07   show                              2                 0.4>>>2(noshow)/5(noshow+show)

df = pd.DataFrame(
    data=np.asarray([
        ['Jack', 'Jack', 'Jill', 'Jack', 'Jill', 'Jill', 'Jack', 'Jill', 'jack', 'jack'],
        [
            '2020/01/01',
            '2020/01/02',
            '2020/01/02',
            '2020/01/03',
            '2020/01/03',
            '2020/01/04',
            '2020/01/04',
            '2020/01/05',
            '2020/01/06',
            '2020/01/07',
        ],
        ['show', 'no-show', 'no-show', 'show', 'show', 'no-show', 'show', 'show', 'no-show', 'show'],
    ]).T,
    columns=['name', 'day', 'show-in-appointment'],
)

previous-missed-appointments 列的创建方式如下代码所示：

df.name = df.name.str.capitalize()
df['order'] = df.index
df.day = pd.to_datetime(df.day)
df['noshow'] = df['show-in-appointment'].map({'show': 0, 'no-show': 1})
df = df.sort_values(by=['name', 'day'])
df['previous-missed-appointments'] = df.groupby('name').noshow.cumsum()
df.loc[df.noshow == 1, 'previous-missed-appointments'] -= 1
df = df.sort_values(by='order')
df = df.drop(columns=['noshow', 'order'])

********问题是

我怎样才能创建最后一栏？？？*********

您可以使用cumsum https://pandas.pydata.org/docs/reference/api/pandas.Series.cumsum.html and shift https://pandas.pydata.org/docs/reference/api/pandas.Series.shift.html in groupby.apply https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.core.groupby.GroupBy.apply.html对于第一列，然后除以groupby.cumcount https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.core.groupby.GroupBy.cumcount.html对于第二列：

# ensure dates are sorted
df = df.sort_values(by='day', key=lambda s: pd.to_datetime(s, dayfirst=False))

m = df['show-in-appointment'].eq('no-show')

g = m.groupby(df['name'].str.casefold(), group_keys=False)
df['previous-missed-appointments'] =  (
  g.apply(lambda x: x.cumsum().shift(fill_value=0))
 )

df['proportion-previous-missed'] = (
    df['previous-missed-appointments'].div(g.cumcount()).fillna(0)
)

print(df)

注意。重要的是，输入首先按日期（或名称/日期）排序。

Output:

   name         day show-in-appointment  previous-missed-appointments  proportion-previous-missed
0  Jack  2020/01/01                show                             0                    0.000000
1  Jack  2020/01/02             no-show                             0                    0.000000
2  Jill  2020/01/02             no-show                             0                    0.000000
3  Jack  2020/01/03                show                             1                    0.500000
4  Jill  2020/01/03                show                             1                    1.000000
5  Jill  2020/01/04             no-show                             1                    0.500000
6  Jack  2020/01/04                show                             1                    0.333333
7  Jill  2020/01/05                show                             2                    0.666667
8  jack  2020/01/06             no-show                             1                    0.250000
9  jack  2020/01/07                show                             2                    0.400000

中间体（为了清晰起见，名称组合在一起并使用较短的列名称）：

   name         day     show  previous-missed computation  proportion
0  Jack  2020/01/01     show                0         0/0        0.00
1  Jack  2020/01/02  no-show                0         0/1        0.00
3  Jack  2020/01/03     show                1         1/2        0.50
6  Jack  2020/01/04     show                1         1/3        0.33
8  Jack  2020/01/06  no-show                1         1/4        0.25
9  Jack  2020/01/07     show                2         2/5        0.40
2  Jill  2020/01/02  no-show                0         0/0        0.00
4  Jill  2020/01/03     show                1         1/1        1.00
5  Jill  2020/01/04  no-show                1         1/2        0.50
7  Jill  2020/01/05     show                2         2/3        0.67

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

groupby

cumulativesum

proportions

Pandas group-by 累加和的比例从0开始的相关文章

如何使用类似 KDnuggets 风格的 PDF 绘制比较箱线图

在经历了解 KDnuggets 文章中的箱线图 https www kdnuggets com 2019 11 understanding boxplots html 我找到了带有概率密度函数的箱线图的详细图 pdf 我正在尝试绘制比较箱线
整数 numpy 数组乘以浮点数

我有一个包含整数值的 numpy 数组如果我将整个矩阵乘以一个浮点数结果是一个浮点矩阵但如果我通过 for 循环逐列相乘它只给出整数部分 import numpy as np A np array 1 2 3 4 5 6 7 8 9
根据 cron 规范计算下一个计划时间

在给定当前时间和 cron 规范的情况下计算事件下一次运行时间的有效方法是什么我正在寻找每分钟循环检查是否符合规范以外的东西规格示例可能是每月1日 15日15 01 每小时整点的 10 20 30 40 50 分钟 Python
如何使用 pywin32 在 Python 中获取特定应用程序窗口的句柄？

我正在尝试修改一些在 Windows 10 中截取特定应用程序窗口屏幕截图的 Python 代码我正在尝试使用win32ui win32guipywin32 包中的模块用于此目的这是损坏的代码 def getWindow name Wi
十六进制转储文件的Pythonic方式

我的问题很简单有什么方法可以用 bash 命令以 Python 方式进行编码吗 hexdump e 2 1 02x file dat 显然不使用 os popen 或任何快捷方式编辑虽然我没有明确指定但如果代码在 Python3
Numpy、Python：广播时自动扩展数组维度

考虑以下 Numpy 数组广播练习 import numpy as np v np array 1 0 2 0 T column array A2 np random randn 2 10 2D array A3 np random ran
哪个 Python IDE 可以逐行运行我的脚本？

我不会称自己为程序员但我最近开始学习 Python 并且非常喜欢它到目前为止我主要将它用于小任务脚本编写文本处理 KML 生成和 ArcGIS 根据我使用 R 的经验使用出色的 Notepad 和NppToR http sour
如何从sqlalchemy中的select语句创建新表？

我正在使用 sqlalchemy 的核心功能来编写一些抽象层该层本身需要能够从 select 语句创建表示例代码 metadata MetaData bind engine table Table table name metadata
我可以在 Mac OS X 上将 enthought python 重新链接到新版本的 openssl 吗？

今天早上我在 Mac OS X 10 6 8 上使用 EPD 7 3 时遇到了与 SSL 相关的问题当我运行 pip 版本 1 3 1 时我得到 pip install requests Downloading unpacking r
无法为从图中加载的张量变量赋值

我已经训练了一个模型并保存了它现在我试图了解权重扰动如何影响其准确性因此我需要修改权重变量中保存的值本质上会为其添加一些噪声问题是加载它们后我无法为它们分配值我正在使用 TensorFlow 版本 1 2 1 来训练和加载模型
安装/编译 pylzma（lzma python 绑定）

我已经向作者提出了这个问题website http www joachim bauch de projects pylzma comment page 1 comment 5211 但我想我也可以在这里问我一直在尝试使用以下设置安装 py
从 Python 执行 PowerShell 脚本的最佳方式是什么

之前关于该主题的所有帖子都涉及其用例的具体挑战我认为如果有一篇文章只讨论从 Python 运行 PowerShell 脚本的最简洁方法并询问是否有人有比我发现的更好的解决方案那将会很有用绕过 PowerShell 尝试以与预期不同
使用 Flask 测试客户端请求传递 cookie 标头

我在让 Flask 测试客户端传递 cookie 时遇到问题这段代码曾经有效我认为我的环境中的某些内容发生了变化这打破了这一点我最近创建了一个新的 Python 3 7 virtualenv 并安装了 Flask 1 0 2 fro
如何计算 pandas 系列中到前一个零的距离？

我有以下 pandas 系列以列表形式表示 7 2 0 3 4 2 5 0 3 4 我想定义一个新的系列返回到最后一个零的距离这意味着我想要以下输出 1 2 0 1 2 3 4 0 1 2 如何以最有效的方式在 pandas 中做到这
使用 spaCy 添加多个 EntityRuler（ValueError：'entity_ruler' 已存在于管道中）

下列link https stackoverflow com questions 57477852 spacy matcher with entities spanning more than a single token展示如何在实体跨越
python 中是否可以有受保护的类变量或方法？ [复制]

这个问题在这里已经有答案了 python 中是否可以有受保护的类变量或方法我可以看一下这种用法的示例吗最简洁的答案是不有一些约定和良好的风格允许您指示某人不应修改这些变量或从类外部调用这些方法但没有办法严格执行这一点 Python
PyPy/RPython 可以用来生成小型独立可执行文件吗？

或者可以使用 PyPy RPython 将 Python 编译翻译为 C C 不需要 Python 运行时我试图通过它的 RPython 和 Python 它的运行它的编译和它的翻译来理解 PyPy 但有些失败 I have a h
django 返回记录的最近日期

我正在尝试从用户的多个记录中返回最近的日期当用户创建文档时创建日期存储在 CreatedDocumentDetails 模型中我无法返回用户最近创建的文档的日期我问这个关于SO的问题 https stackoverflow com
Python 子进程在发出 HTTP 请求时无提示崩溃

我在组合多处理请求或 urllib2 和 nltk 时遇到问题这是一个非常简单的代码 gt gt gt from multiprocessing import Process gt gt gt import requests gt g
聚类算法采用哪种编程结构

我正在尝试实现以下分裂聚类算法下面是该算法的简短形式完整的描述可用here https dl dropboxusercontent com u 540963 diana pdf 从样本 x i 1 n 开始将其视为由 n 个数据点

随机推荐

如何将视图作为图像保存到 SD 卡

我的应用程序使用表格布局表格行和文本视图创建一个拼图网格我希望用户能够将该网格保存到 SD 卡上以便可以打印复制或加载到其他设备上如何保存视图以便在打印时它看起来就像在 Android 屏幕上一样 None
JNLP 作为 HTML 页面中的 Applet

我试图在 HTML 页面中运行 JNLP 但 java 插件不运行 JNLP 只运行 Applet 这是我的代码
Spring Java 中许多 DAO 的策略

我们现有的项目中有许多 DAO 目前没有接口但这可能会改变我们没有为每个 DAO 类连接一个 Spring 管理的 bean 并将它们注入到服务层而是有一个类似这样的 DAO 工厂 public class DAOFactory pr
Angular 2 角色和权限

我在我的项目中使用了 angular2 和 laravel 5 3 在laravel中当用户登录服务器时将发送用户的权限以处理角度授权所以我写了一个守卫来保护无法访问的用户的路由这是我的警卫类代码 export class Acce
我可以取回诸如“悬停位置”、“刷位置”或“点击位置”之类的信息吗

我想建立一个闪亮且有情节的交互式图表 Shiny 有一个内置功能来获取有关用户交互的信息喜欢输入 plot click 输入 plot dblclick 输入 plot hover and 输入 plot brush See http
如何从 Firefox 扩展中的地址栏获取文本

我正在构建一个火狐扩展我在用XUL and JavaScript去做这个我需要从 Firefox 浏览器的地址栏中获取文本请不要与浏览器导航的 URL 混淆它只是用户在页面重定向之前输入的文本假设用户位于http www myex
' 需要 1 个类型参数' aria-label='@angular/forms 通用类型 'Type' 需要 1 个类型参数'> @angular/forms 通用类型 'Type' 需要 1 个类型参数

我升级了 Node 和 NPM 并重新安装了 Angular CLI angular cli 1 0 0 beta 11 webpack 8 node 6 5 0 os linux x64 生成了一个foo项目运行良好然后我将 Angul
品牌旁边的文字

如何将 Bootstrap 品牌和任何随附文本一起视为品牌我已经尝试过这个
Firefox 中的 JavaScript 错误

我在 Firefox 中运行 JavaScript 时遇到问题下面的脚本在除 Firefox 之外的其他浏览器中运行没有问题 var vars hash var hashes window location href slice wind
基于内容的 RxJava Observable 缓冲区

我使用 vertX 和 RxJava 启动了一个项目但遇到了一个问题但没有找到解决方案我有一个 Observable 它为传入通信发出 WebSocketFrame 每个 WebSocketFrame 由有效负载 ByteBuffer
大写和 NoClassDefFoundError 与 ClassNotFoundException

我发现不同平台上 Class forName 何时抛出 ClassNotFoundException 以及何时抛出 NoClassDefFoundError 存在差异这种行为是否在某处明确定义或者我偶然发现了一个错误考虑以下代码它是
spring-data-jpa 不从 oracle.jdbc.driver.forwardonlyreswultset 进行转换

我正在连接到 oracle 数据库我刚刚解决了依赖问题在以下网址中有所需的代码如存储库实体等 spring data jpa 1 11 16 带游标的存储过程 https stackoverflow com questions 53
使用不同数据集的 UNION ORDER BY (T-SQL)

我有一个疑问UNION的两个有点相似的数据集但它们都有一些在另一个数据集中不存在的列即这些列在结果中具有 NULL 值 UNION 问题是我需要ORDER使用仅存在于一个或另一组中的那些列来生成结果数据以便以软件端友好的格式获取数
GAE 数据存储游标是否永久且持久？

这么说是否正确com google appengine api datastore Cursor只是将索引位置存储到 GAE 数据存储索引中游标耐用吗也就是说我可以永久存储游标并一次又一次地重复使用它并确定如果它指向索引中的第 50
是否可以为 Azure 辅助角色设置机器密钥

我在 Azure 辅助角色中托管了一个 Owin WebAPI 服务器 Owin Authentication中间件似乎使用MachineKey来加密和生成Token 当我只有一个该角色的实例时这非常有效但是一旦我想使用多个实例每个实
HTML5 替代基于闪存的 ZeroClipboard 来安全地将数据复制到剪贴板？

随着 Flash 在许多环境 iPhone Android IE10 等中逐渐淘汰是否有任何浏览器即将推出新的解决方案允许在不安装 Flash 的情况下将信息安全复制到剪贴板我一直在使用零剪贴板 https github com j
TextRenderInfo 在 iTextSharp 中如何工作？

我从网上得到了一些代码他们为我提供了字体大小我不明白 TextRenderInfo 如何读取文本我尝试使用 renderInfo GetText 它给出随机数量的字符有时是 3 个字符有时是 2 个字符或更多或更少我需要知道 r
对 .NET Core 中的 web.config 感到困惑

关于 web config 和 NET Core 有很多相互矛盾的说法 Places saying it s gone https dotnetcore show episode 10 configuration in net core h
从另一个 Activity 返回时 SearchView 获得焦点并打开键盘

当我从另一个活动返回主活动时 searchView 获得焦点并且键盘打开我设法使用以下方法阻止键盘打开 getWindow setSoftInputMode WindowManager LayoutParams SOFT INPUT ST
Pandas group-by 累加和的比例从0开始

我有以下 pandas 数据框没有最后 2 列 name day show in appointment previous missed appointments proportion previous missed 0 Jack 202

Pandas group-by 累加和的比例从0开始

********问题是

Pandas group-by 累加和的比例从0开始 的相关文章

随机推荐

热门标签

Pandas group-by 累加和的比例从0开始的相关文章