按权重分组

2024-05-07

给定以下数据框：

import pandas as pd
d=pd.DataFrame({'Age':[18,20,20,56,56],'Race':['A','A','A','B','B'],'Response':[3,2,5,6,2],'Weight':[0.5,0.5,0.5,1.2,1.2]})
d
    Age     Race    Response    Weight
0   18      A       3           0.5
1   20      A       2           0.5
2   20      A       5           0.5
3   56      B       6           1.2
4   56      B       2           1.2

我知道我可以应用分组来按年龄和种族进行计数，如下所示：

d.groupby(['Age','Race'])['Response'].count()
Age  Race
18   A       1
20   A       2
56   B       2
Name: Response, dtype: int64

但我想使用“权重”列对案例进行加权，以便前 3 行将计为 0.5，而不是每行 1，最后两行将计为 1.2。因此，如果按年龄和种族分组，我应该有以下内容：

Age  Race
18   A       0.5
20   A       1
56   B       2.4
Name: Response, dtype: int64

这类似于使用 SPSS 中的“权重案例”选项。我知道在 R 中这是可能的，并且我在 Python 中看到了一个有前途的库（尽管当前的构建失败了）here https://github.com/InContextSolutions/PandaSurvey.

和 PySal （不确定它是否适用于这里）

...但我想知道是否可以在分组中以某种方式完成。

如果我理解正确的话，你只是在寻找.sum() https://pandas.pydata.org/pandas-docs/stable/generated/pandas.Series.sum.html与重量。

d.groupby(['Age', 'Race']).Weight.sum()

## Age  Race
## 18   A       0.5
## 20   A       1.0
## 56   B       2.4
## Name: Weight, dtype: float64

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

groupby

按权重分组的相关文章

Python groupby 无法按预期工作[重复]

这个问题在这里已经有答案了我正在尝试读取一个 Excel 电子表格其中包含以下格式的一些列 column1 column1 AccountName column1 SomeOtherFeature column2 blabla colu
为什么 Contextmanager 会抛出运行时错误“生成器在 throw() 之后没有停止”？

在我的 utility py 中 contextmanager def rate limit protection max tries 3 wait 300 tries 0 while max tries gt tries try yiel
Python：并行修改数组的简单方法

这个问题可能听起来很简单但作为 Python 并行化的新手我肯定会遇到困难我处理了 OpenMP for C 中的并行化问题这要容易得多我需要做的是并行修改矩阵的条目就是这样问题是我无法使用简单的 joblib 库来做到这一
类型错误：不支持的操作数类型 -：“int”和“list”

我正在尝试用 python 创建一个程序它会使用 Zeller 算法告诉你你出生在星期几http en wikipedia org wiki Zeller 27s congruence http en wikipedia org wiki
如何在 Windows 上检查子进程是否被信号杀死

问题给定一个在 python 中启动的子进程其代码类似于 import subprocess p subprocess Popen command stdout subprocess PIPE stderr subprocess PIP
优化 Django Queryset for 循环

如何优化以下查询集 link goal for link in self child links all 我想摆脱 for 循环并只访问数据库一次我有以下代码 class Goal models Model name models Cha
是否有像 python 的 issubclass 这样的东西，如果第一个参数不是类，它将返回 False？

我想要issubclass 1 str 返回 false 1不是的子类str 因为它根本不是一个类所以我收到了 TypeError 有没有一个好的方法来测试这个而不诉诸try except try if issubclass value
在 NLTK Python 的朴素贝叶斯分类器中使用文档长度

我正在使用 Python 中的 NLTK 构建垃圾邮件过滤器现在我检查单词的出现情况并使用 NaiveBayesClassifier 其准确度为 0 98 垃圾邮件的 F 测量值为 0 92 非垃圾邮件的 F 测量值为 0 98 然而
检查空查询集

我想确认这是否是检查空查询集的正确方法如果这就是为什么我会遇到 UNIQUE 约束错误 syn check Synonym objects filter MD objects get filter dict synonym type St
在Python中，如何将“datetime”对象转换为秒？

我有一堆日期时间对象我想计算每个对象自过去固定时间以来的秒数例如自 1970 年 1 月 1 日以来 import datetime t datetime datetime 2009 10 21 0 0 这似乎只是区分具有不同日期的日期
找出段落中出现的单词

sentence Alice was not a bit hurt and she jumped up on to her feet in a moment words Alice jumped played 我可以使用filterpyth
分组依据检索 3 个值

我有以下查询 SELECT Cod MIN Id AS id Min MAX Id AS id Max retrieve value in the middle COUNT AS Tot FROM Table a NOLOCK GROUP
Django 模型表单中的必填字段

我有一个表格当我也不想要它们时会根据需要显示几个字段这是来自 models py 的表格 class CircuitForm ModelForm class Meta model Circuit exclude lastPaged d
pytest 看不到正在测试的函数的日志

我有一个像这样的烧瓶应用程序 from flask import Flask import logging app Flask name app route def catch all logging warning I m a warni
我可以在不同的计算机上使用相同的虚拟环境吗

在我的办公室电脑上我做了virtualenv one for rule them all在 Dropbox 文件夹中我想在工作和家庭中使用这个环境这可能吗目前我还没有成功考虑使用relocatablevirtualenv 的选项
需要帮助编写扭曲的代理

我想编写一个简单的代理可以对请求页面正文中的文本进行打乱我已经阅读了 stackoverflow 上的部分扭曲文档和其他一些类似的问题但我有点菜鸟所以我仍然不明白我现在就是这样不知道如何访问和修改页面 from twisted
Scapy TCP 校验和重新计算奇怪的行为

我正在尝试进行 TCP ACK 欺骗我从 pcap 文件中嗅探一个 ACK 数据包并在循环中发送它增加其 ACK 编号以及另一个选项字段嗅探部分预欺骗 from scapy all import from struct impor
Python Flask 不更新图像[重复]

这个问题在这里已经有答案了这里有一些关于图像的 Flask 问题但没有一个能解决我的问题我有一个应用程序可以创建图像保存它然后显示它一次它应该多次执行此操作每次更改图像时它应该加载新图像它不是它只显示与其显示的文件名关
Python - 使用 BeautifulSoup 从 URL 列表中抓取文本的最简单方法

使用 BeautifulSoup 从几个网页使用 URL 列表中抓取文本的最简单方法是什么有可能吗最好的乔治娜 import urllib2 import BeautifulSoup import re Newlines re c
无法让我的脚本自动生成一些值以在有效负载中使用

我创建了一个脚本通过随后发送两个 https 请求来从目标页面获取 html 元素我的脚本可以完美地完成这件事但是我必须从 chrome 开发工具复制四个值来填充其中的四个键payload为了发送最终的http请求到达目标页面这是

随机推荐

如何将向量转换为数组

我如何转换std vector
x86 上 SPARC 的交叉编译

我已经看到关于交叉编译器的回复如何在 Windows 上交叉编译 C 代码以便二进制文件也可以在 Unix Solaris HPUX Linux 上运行 https stackoverflow com questions 579695 h
如何仅在 PR 上触发构建，而不是在合并后在 Azure 管道上触发构建？

这是向pyjanitor project https github com ericmjl pyjanitor 我已经构建了分为多个作业的管道并且这些作业被设计为并行运行但是我注意到即使在合并 PR 后也会触发构建因此我的问题有两
按值传递容器会使迭代器失效吗？

这是一些示例代码 include
C 中的堆错误

我知道这确实很一般但当我在 Visual C 2008 Express 中运行 c 文件时我得到 this 见下文当我打电话时会发生这种情况malloc 以我的工作为例我动态地正确分配内存 HEAP Code exe HEAP 释放
Nodejs + mongodb：如何查询 $ref 字段？

我将 MongoDB 与 Nodejs REST 服务一起使用该服务公开了存储在其中的数据我有一个关于如何查询使用 ref 的数据的问题这是一个对象的示例其中包含对花药集合中另一个对象详细信息的引用 id ObjectId 59
在 Django 查询中与父级一起获取子级数据

我有两个模型产品和产品包产品包有一个产品型号的外键我如何访问包含产品包的所有产品的列表 class Product models Model title models CharField verbose name Product Tit
谷歌距离矩阵 API

我正在尝试获取direction in traffic 使用常规路线 API 不会返回该值我发现有一个字段distancematrixapi 就是这样做的当我从自己的机器上运行该代码时该代码可以工作但是一旦上线我就会看到有关的错误
我想在Java中使用关于随机索引的索引

我使用Java 当我在Java中使用ArrayList时如果我随机访问索引号这可能吗如果这是不可能的我应该怎么做例如 ArrayList
在 Python 中使用列表理解来执行类似于 zip() 的操作？

我是一名 Python 新手我想做的事情之一就是围绕列表理解进行思考我可以看到这是一个非常强大的功能值得学习 cities Chicago Detroit Atlanta airports ORD DTW ATL print zip
将像素传递给 glTexImage2D() 后会发生什么？

例如如果我创建一个像素数组如下所示 int getPixels int pixels new int 10 pixels 0 1 pixels 1 0 pixels 1 1 etc glTexImage2D getPixels glTe
-XX:MinHeapFreeRatio 和 -XX:MaxHeapFreeRatio 的目的是什么

请告诉我这些选项的目的谷歌搜索后我想 MinHeapFreeRatio 表示 GC 后将确保堆内存中指定的最小空间百分比是可用的和 MaxHeapFreeRatio告诉 GC后堆内存中的空闲空间不会超过指定的百分比如果空闲内存超过指定
如果事件是系列的一部分，则对 iCalUId 进行过滤将返回空数组

我的问题几乎相同这个问题 https stackoverflow com questions 46176211 filtering on icaluid returns empty array 我本来想在那里发表评论但由于是新用户而无法这
创建反应应用程序打字稿不加载 d.ts 文件

我使用 create React app typescript 创建了一个项目我有一些 d ts 文件其中定义了接口类型和枚举当我运行启动脚本时它无法加载 d ts 文件以下是我的 tsconfig 文件 compilerOpti
仅当锚点尚未存在时，正则表达式才用锚点替换网址

我以前见过类似的问题但没有一个有效的解决方案我试图用锚标记替换页面上的所有网址但仅限那些不在锚标记内的网址 so http google com http google com应替换为 a href http google com h
给定与总和匹配的长度的唯一 3 位数字 (-1,0,1) 序列的数量

假设您有一个长度为 n 即空格数的垂直游戏板你有一个三面骰子有以下选项前进一停留和后退如果您低于或高于棋盘游戏空间的数量则该游戏无效一旦到达棋盘末端唯一有效的动作就是停留给定确切的骰子投掷次数 t 是否可以通过算法计算
更改 git diff 输出前后的行数

我想增加更改之前和之后显示的行数git diff output 类似于grep A3 B5 根据git diff help git diff支持与标准相同的参数diff命令 w r t 上下文 U
如何在 Windows 上的 Python 2.7 上安装 Tensorflow？

我尝试通过 pip 安装 TensorFlow pip install tensorflow 但是得到这个错误找不到满足tensorflow要求的版本来自版本这个问题有解决办法吗我还是想通过pip安装如果您只因为 Keras 而需
为什么我不能使用 min 和 max 作为变量名？

在这个 C 程序中函数print nums不接受这vector
按权重分组

给定以下数据框 import pandas as pd d pd DataFrame Age 18 20 20 56 56 Race A A A B B Response 3 2 5 6 2 Weight 0 5 0 5 0 5 1 2 1

按权重分组

按权重分组 的相关文章

随机推荐

热门标签

按权重分组的相关文章