pandas：groupby 和可变权重

2024-04-29

我有一个数据集，其中每个观察值都有权重，我想使用以下方法准备加权摘要groupby但我对如何最好地做到这一点感到生疏。我认为这意味着自定义聚合函数。我的问题是如何正确处理不是按项目的数据，而是按组的数据。也许这意味着最好分步进行，而不是一次性完成。

在伪代码中，我正在寻找

#first, calculate weighted value
for each row:
  weighted jobs = weight * jobs
#then, for each city, sum these weights and divide by the count (sum of weights)
for each city:
  sum(weighted jobs)/sum(weight)

我不确定如何将“针对每个城市”部分放入自定义聚合函数中并访问组级别摘要。

模拟数据：

import pandas as pd
import numpy as np
np.random.seed(43)

## prep mock data
N = 100
industry = ['utilities','sales','real estate','finance']
city = ['sf','san mateo','oakland']
weight = np.random.randint(low=5,high=40,size=N)
jobs = np.random.randint(low=1,high=20,size=N)
ind = np.random.choice(industry, N)
cty = np.random.choice(city, N)
df_city =pd.DataFrame({'industry':ind,'city':cty,'weight':weight,'jobs':jobs})

只需将两列相乘：

In [11]: df_city['weighted_jobs'] = df_city['weight'] * df_city['jobs']

现在您可以按城市分组（并求和）：

In [12]: df_city_sums = df_city.groupby('city').sum()

In [13]: df_city_sums
Out[13]: 
           jobs  weight  weighted_jobs
city                                  
oakland     362     690           7958
san mateo   367    1017           9026
sf          253     638           6209

[3 rows x 3 columns]

现在您可以将两个总和相除，以获得所需的结果：

In [14]: df_city_sums['weighted_jobs'] / df_city_sums['jobs']
Out[14]: 
city
oakland      21.983425
san mateo    24.594005
sf           24.541502
dtype: float64

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

groupby

pandas

weightedaverage

pandas：groupby 和可变权重的相关文章

防止脚本目录被添加到Python 3中的sys.path

有没有办法阻止脚本的目录被添加到python3中的sys path 由于导入在 python 中是相对的因此我遇到了导入冲突我正在处理的一个遗留项目有一个名为logger py在与内置冲突的脚本的根目录中logger 我使用的自定义构建
有没有办法清理 jinja2 生成的 html？

我们使用 jinja2 来创建 html 但是由于我们在 jinja 中执行许多循环和其他操作来生成 html 所以 html 看起来很丑注意这只是为了美观我们可以做些什么来清理 html 吗除了清理我们的 jinja2 代码之
根据两个预先计算的直方图报告两个样本的 K-S 统计量

Problem 在这里我绘制了存储在文本文件中的 2 个数据集在列表中 dataset 每个包含 218 亿个数据点这使得数据太大而无法作为数组保存在内存中我仍然能够将它们绘制为直方图但我不确定如何通过2 样本KS测试 http
PyQt：如何设置组合框项目可检查？

为了将 GUI 小部件数量保持在最低限度我需要找到一种方法来为用户提供下拉菜单项的选择这些菜单项可用于过滤掉 listWidget 项中显示的内容假设 listWidget 列出了 5 个不同类别的项目 Cat A Cat B Cat
如何使用 tweepy 仅提取主题标签中的文本？

我想为我的情感分析项目提取主题标签但是我得到了一个字典列表其中包含所有主题标签及其在推文中的索引我只想要文字我的代码 data tweepy Cursor api search q since a i until b i items
Scrapy 仅抓取每个页面的第一个结果

我目前正在尝试运行以下代码但它只保留每个页面的第一个结果知道可能是什么问题吗 from scrapy contrib spiders import CrawlSpider Rule from scrapy contrib linkext
使用 Python 读取 App Engine 上的文件？

是否可以在 GAE 上打开文件来读取其内容并获取最后修改的标签我收到 IOError Errno 13 文件无法访问我知道我无法删除或更新但我相信阅读应该是可能的有人遇到过类似的问题吗 os stat f r st mtim 您可能
Python Raspberry pi - 如果路径不存在，则跳过循环

我有一个收集温度文本文件中的值的功能它使用部分预定义的路径但是有时如果温度传感器未加载断开连接则路径不存在如果路径不可用如何设置条件或例外来跳过循环我想使用 continue 但我不知道要设置什么条件 def read
带有 UnboundLocalError 的本地和全局引用

我不太明白为什么代码 def f print s s foo f 运行得很好但是 def f print s s bar s foo f 给我 UnboundLocalError 我知道我可以通过声明来解决这个问题s作为函数内的全局变量或简
使用 scikit 包在 Python 中绘制集群区域的边界

这是我处理 3 个属性 x y 值中的数据聚类的简单示例每个样本代表其位置 x y 及其所属变量我的代码发布在这里 x np arange 100 200 1 y np arange 100 200 1 value np random
Flask-Mail - 基于 Flask-Cookiecutter 异步发送电子邮件

我的烧瓶项目基于烧瓶饼干切割机 https github com sloria cookiecutter flask我需要异步发送电子邮件发送电子邮件的功能由以下配置米格尔的教程 https blog miguelgrinberg com
self.assertRaises 作为上下文管理器，但 msg 参数未按预期工作

请检查以下代码 import unittest CORRECT MESSAGE Correct message WRONG MESSAGE Wrong message def fn raise KeyError CORRECT MESSAG
使用 RGB 数据将输入数据剪切到 imshow 的有效范围（对于浮点数为 [0..1]，对于整数为 [0..255]）

我尝试将 MRI 切片转换为 PNG 格式后运行图形切割算法我不断遇到以下问题 Clipping input data to the valid range for imshow with RGB data 0 1 for floats
在 LINUX 上使用 Python 连接到 OLAP 多维数据集

我知道如何在 Windows 上使用 Python 连接到 MS OLAP 多维数据集嗯至少有一种方法通常我使用 win32py 包并调用 COM 对象进行连接 import win32com client connection wi
构建一个简单的解析器，能够使用 PyParse 解析不同的日期格式

我正在构建一个简单的解析器它接受如下查询显示 fizi 从 2010 年 1 月 1 日到 2006 年 2 月 11 日的提交到目前为止我有 class QueryParser object def parser self stmn
通过Python通过蓝牙发送消息或数据

如何通过 python 通过蓝牙发送消息而无需输入数字等密钥身份验证我用过 pybluez 但我收到了这个错误 File send line 12 in
django REST框架多源领域

假设我的 models py 中有这些 models py class Theme models Model An theme is an asset of multiple levels adventure models ForeignK
如何检索 SQLAlchemy 结果集的 python 列表？ [复制]

这个问题在这里已经有答案了我有以下查询来检索单列数据 routes query select schema stop times c route number schema stop times c stop id stop id dis
预训练 inception v3 模型的层名称（tensorflow）[重复]

这个问题在这里已经有答案了任务是获取a的每层输出预训练的 cnn inceptionv3 https www tensorflow org versions master tutorials image recognition index
重定向到破折号中的 url

我正在使用 dash 构建一个仪表板每当单击特定数据点时我都会创建一个唯一的 url 如何将用户重定向到此创建的 url 我正在使用下面给出的代码每当有人单击任何数据点时单击事件就会触发并执行回调函数 app layout html

随机推荐

RichTextFx CodeArea 中的文本背景颜色

我正在使用 RichTextFx CodeArea 来突出显示我的代码我想更改某些关键字的文本背景颜色并使用下面的 css parameter rtfx background color yellow But it s changes b
警报和确认函数是内置于 JavaScript 中的，还是 DOM 的一部分？

Are the alert and confirmJavaScript 中内置的函数还是 DOM 的一部分如果您能给我推荐一份参考资料让我能够轻松了解 JavaScript 中直接内置了哪些函数那就加分了它们是通常所说的一部分DO
Google 地图小部件错误无法检索 com.google.android.libraries.consent 验证程序的标志快照

当我进入带有 Google 地图小部件的页面时出现以下错误 W DynamiteModule 17290 Local module descriptor class for com google android gms googlecert
如何通过反射获取当前属性名称？

当我通过反射进入其中时我想获取属性名称是否可以我有这样的代码 public CarType Car get return Wheel this Wheel set this Wheel value 因为我需要更多这样的属性所以我想做
如何通过 docker-php-ext-install 安装 php 扩展？

为了解决问题 https stackoverflow com questions 37526509 how to install pdo driver in php docker image 我现在尝试通过安装 mysql pdo dock
使用字典键和值填充 DataGridViewComboBoxColumn

我有一本字典其键为三个字母的国家地区代码其值为国家地区名称 Dictionary
IIS 6 网站根目录与应用程序？解决Url（）？

IIS 6 ASP NET 3 5 C NET 我们遇到一个问题即同一组文件的行为会有所不同具体取决于它是根 IIS 网站还是 IIS 网站下的应用程序使用生成的网址解析网址 http msdn microsoft com en us
带下拉列表的过滤器 Laravel

我有一个下拉菜单用于按类别过滤图像我的第一个问题是我希望在过滤器之后选择选定的选项我该怎么做这是我第一次使用 Laravel 我想知道我的解决方案是否朝着正确的方向前进现在我在两个函数中有相同的代码我计划修复这个问题但我真的无
在 Kubernetes API 中启用 CORS

有没有办法在 Kubernetes API 上启用 CORS 以便我可以使用不同的域向 Kubernetes API 发送 ajax 请求通过将 cors allowed origins http 参数添加到 etc default ku
MySQL：查询之间的最佳索引

我有一个具有以下结构的表 CREATE TABLE geo ip id bigint 20 NOT NULL AUTO INCREMENT start ip int 10 unsigned NOT NULL end ip int 10 un
在列表中组织 Android Realm 数据

我正在考虑将我们当前的应用程序迁移到领域并试图找出将数据组织成令的最佳方式对于这个问题我将重点关注Photo我的数据模型的对象但还有其他对象我的所有数据对象均来自具有以下端点的 API getPopular getNearbyPho
尝试向 HashSet 添加值不会更改其中值的数量

我有一个HashSet当我使用Add集合方法不添加任何内容输出依然是2 3 5 7 11 13和输出 Count is 6 这是一个错误还是我在这里做错了什么 namespace AllerDiz class MainClass pub
向 Matplotlib 等高线图添加水流箭头

我正在使用 Matplotlib 生成地下水高程等值线见下文 Here is what I have now how can I add water flow arrows like the image below I want to a
如何使用ffmpeg从avi生成gif？ [关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我正在尝试使用以下命令将视频的一部分提取到动画 gif 中 ffmpeg i video avi t 5 out gif 它会生成一个 g
正在加载服务帐户 Json 密钥文件

Google 最近开始为我们提供服务帐户的 Json 密钥文件而不是 P12 密钥文件我一直在试图了解这一点但那里没有太多信息而我所看到的信息表明这应该有效 string scopes new string DriveService
Android Studio无法更新

我正在运行 Mint 14 Linux 并且在使用 Android Studio 时遇到了一个主要问题运行更新功能时所有软件包都会返回访问被拒绝状态我怎样才能解决这个问题如何授予下载和安装的权限附加信息 studio sh 正
SSIS将字符串变量保存到文本文件

看起来应该很简单但到目前为止我还没有找到一种方法将存储在 SSIS 字符串变量中的值保存到文本文件中我研究过在数据流内部使用平面文件目标但这需要数据流源关于如何做到这一点有什么想法吗使用脚本任务我刚刚尝试过这个我创建了一个文件
如何使用 Webpack 同时创建包的“web”和“node”版本？

有没有一种方法可以使用 Webpack 或 Browserify 一次性创建捆绑包的 web 和 node 版本捆绑包的 web 版本将在客户端上使用同一捆绑包的节点版本将在服务器上用于预渲染同构 http nerds airbn
当计算结果在 Linux 中产生非正规数时刷新为零

我的 C 代码中的计算正在产生逐渐下溢当发生这种情况时程序将以 SIGFPE 终止当计算产生逐渐下溢非正常时如何将结果刷新为零而不终止执行我正在一台 redhat linux 机器上工作谢谢您还没有指定架构我猜测它是一
pandas：groupby 和可变权重

我有一个数据集其中每个观察值都有权重我想使用以下方法准备加权摘要groupby但我对如何最好地做到这一点感到生疏我认为这意味着自定义聚合函数我的问题是如何正确处理不是按项目的数据而是按组的数据也许这意味着最好分步进行而不是一次

pandas：groupby 和可变权重

pandas：groupby 和可变权重 的相关文章

随机推荐

热门标签

pandas：groupby 和可变权重的相关文章