有没有办法获得 dask 中每组最大的项目？

2023-12-25

我有以下数据集：

location  category    percent
A         5           100.0
B         3           100.0
C         2            50.0
          4            13.0
D         2            75.0
          3            59.0
          4            13.0
          5             4.0

我正在尝试获取数据框中按位置分组的最大类别项目。即，如果我想要每组的前 2 个最大百分比，则输出应该是：

location  category    percent
A         5           100.0
B         3           100.0
C         2            50.0
          4            13.0
D         2            75.0
          3            59.0

看起来在 pandas 中这是相对直接使用的pandas.core.groupby.SeriesGroupBy.nlargest但 dask 没有nlargestgroupby 的函数。一直在玩apply但似乎无法让它正常工作。

df.groupby(['location'].apply(lambda x: x['percent'].nlargest(2)).compute()

但我刚刚收到错误ValueError: Wrong number of items passed 0, placement implies 8

apply 应该可以工作，但是你的语法有点不对：

In [11]: df
Out[11]:
Dask DataFrame Structure:
              Unnamed: 0 location category  percent
npartitions=1
                   int64   object    int64  float64
                     ...      ...      ...      ...
Dask Name: from-delayed, 3 tasks

In [12]: df.groupby("location")["percent"].apply(lambda x: x.nlargest(2), meta=('x', 'f8')).compute()
Out[12]:
location
A         0    100.0
B         1    100.0
C         2     50.0
          3     13.0
D         4     75.0
          5     59.0
Name: x, dtype: float64

在熊猫中你会有.nlargest and .rank作为 groupby 方法，您可以在不应用的情况下执行此操作：

In [21]: df1
Out[21]:
  location  category  percent
0        A         5    100.0
1        B         3    100.0
2        C         2     50.0
3        C         4     13.0
4        D         2     75.0
5        D         3     59.0
6        D         4     13.0
7        D         5      4.0

In [22]: df1.groupby("location")["percent"].nlargest(2)
Out[22]:
location
A         0    100.0
B         1    100.0
C         2     50.0
          3     13.0
D         4     75.0
          5     59.0
Name: percent, dtype: float64

dask 文档说明 http://dask.pydata.org/en/latest/dataframe-overview.html#scope:

Dask.dataframe 涵盖了 pandas API 的一小部分但经常使用的部分。
这种限制有两个原因：

pandas API 非常庞大

有些操作确实很难并行执行（例如排序）。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

pandas

GROUPING

Dask

TopN

有没有办法获得 dask 中每组最大的项目？的相关文章

仅对某些行的不同大小的两个 pandas 数据帧的列进行求和

我有两个 pandas 数据框如下所示 df1 n column1 0 5 0 0 0 1 6 0 0 0 2 7 0 0 0 3 8 0 0 0 4 9 0 0 0 5 10 0 0 0 df2 n column2 0 6 0 1 0
Pandas 替换特定列上的值

我知道这两个类似的问题熊猫替换值 https stackoverflow com questions 27117773 pandas replace values Pandas 替换数据框中的列值 https stackoverflow
计算列表中每个项目在 pandas 数据框列中出现的次数，并用逗号分隔值

我有一个清单 citylist New York San Francisco Los Angeles Chicago Miami 和带有这些值的 pandas Dataframe df1 first last city email John
Pandas：根据其他多级列对最里面的列进行分组排序

考虑下面的 df In 3771 df pd DataFrame A a 11 B b 11 C C1 C1 C2 C1 C3 C3 C2 C3 C3 C2 C2 D D1 D2 D1 D3 D3 D2 D4 D4 D1 D2 D3 E v
pandas：使用运算符链接过滤 DataFrame 的行

大多数业务在pandas可以通过操作符链接来完成 groupby aggregate apply等但我发现过滤行的唯一方法是通过普通的括号索引 df filtered df df column value 这没有吸引力因为它需要我分配d
是否有比 .apply() 更慢或更受控制的替代方案？

所以这似乎是一个奇怪的问题但我有一只熊猫DataFrame其中包含地址我想对其进行地理编码以便获得纬度和经度我有可以使用的代码 apply 感谢这个非常有帮助的线程使用 geopy pandas 的新列坐标 https stack
Bokeh 中的 TimeSeries 使用带索引的数据框

我正在尝试使用 Bokeh 来绘制Pandas数据框带有DateTime包含年份和数字一的列如果DateTime指定为x 行为是预期的 x 轴中的年份但是如果我使用set index转动DateTime列放入数据帧的索引中然后仅指定
lucene 3.5中分组和facet有什么区别

我在lucene 3 5 contrib文件夹中发现了两个插件一个是分组另一个是facet 在我的选择中它们都用于将我的文档分为不同的类别为什么 lucene 现在有两个插件呢它们是两个不同的 lucene 特性 Grouping
为什么我会收到 ValueError：系列的真值不明确。使用 a.empty、a.bool()、a.item()、a.any() 或 a.all()

以下代码给出了值错误 major males for row in recent grads if recent grads Men gt recent grads Women major males append recent grads
Pandas 中每列的曲线拟合 + 外推值

我有一个包含大约 300 列的数据集每一列都与深度相关 Pandas DataFrame 的简化版本看起来像这样 import matplotlib pyplot as plt import numpy as np import pand
将 str.contains 映射到 pandas DataFrame

python 初学者我正在寻找创建字符串的字典映射以及关联的值我有一个数据框想要创建一个新列如果字符串匹配则会将该列标记为 x df pd DataFrame comp dell notebook dell notebook S3
将矩形分组到网格中

我有一个随机切片的矩形网格宽度为 80 单位我已经将网格每一行的可用空间存储在如下数组中 pX 1 sX 15 pX 30 sX 13 pX 43 sX 1 pX 44 sX 17 pX 1 sX 15 pX 16 sX 14 pX 3
Pandas，条形图注释

如何正确给 Pandas 条形图添加注释我正在跟进使用 Pandas 和 MPL 进行条形图注释 http robertmitchellv com blog bar chart annotations with pandas and mp
打印一个 Jupyter 单元中定义的所有变量

有没有一种更简单的方法来以漂亮的方式显示单个单元格中定义的所有变量的名称和值我现在做的方式是这样的但是当有30个或更多变量时我浪费了很多时间您可以使用whos http ipython readthedocs io en stable
pandas apply：函数名是否带引号的区别

简单数据框定义示例 df pd DataFrame A 2 4 1 B 8 4 1 C 6 2 7 df A B C 0 2 8 6 1 4 4 2 2 1 1 7 尝试理解以下块中函数参数调用的差异 df apply sum df app
在 Python Dataframe 中对附近的列值进行分组

我有一个 DataFrame 其中包含一些列例如 n 列和一些行例如 m 行我想根据一列列 x 值对 DataFrame 行进行分组它与列 x 值不完全匹配我需要将附近的值分组例如我的 DataFrame 会是这样的 y y
如何对每一行进行 value_counts 并创建一些列，其值是每个值的计数

我得到一个数据框如下 df c1 c2 c3 c4 c5 c6 c7 c8 c9 c10 c11 c12 r1 0 1 1 1 1 0 0 0 0 0 0 0 r2 1 2 2 2 2 1 1 1 1 0 0 0 r3 1 0 2 0 0
Pandas read_csv() 1.2GB 文件在具有 140GB RAM 的虚拟机上内存不足

我正在尝试读取一个1 2G的CSV文件其中包含25K记录每条记录由一个id和一个大字符串组成但是大约 10K 行时我收到此错误 pandas io common CParserError 标记数据时出错 C 错误内存不足这看起
通过另一个指标数据框评估一个数据框

我有一个源数据框input df PatientID KPI Key1 KPI Key2 KPI Key3 0 1 C602 C603 C601 NaN 1 2 C605 C606 C602 NaN 2 3 75 L239 C602 NaN
在 pandas eval 中调用 round()、ceiling()、floor()、min()、max()

正如标题所说有没有办法在 pandas eval 中支持 round ceiling min max floor 函数数据框 import pandas as pd import numexpr as ne op d ID 1 2 3

随机推荐

如何在 C# 中使网页浏览器控件变为空白？

最初当网络浏览器刚刚加载到表单上时它是空白的即白色一旦我们进入某个特定网站有没有办法让它再次变成空白我尝试过这些方法但没有找到一种可以实现这一点的方法还有其他方法还是我错过了什么尝试一下 webBrowser1 Navig
使用“”的不可重现的随机数

我正在尝试创建一个类为多个分布生成随机数同时保持它们的可重复性通过设置初始种子该代码似乎有效直到我开始使用正态分布和奇怪的错误表面这些主要是如果我取消注释double a rnd rnorm 0 0 1 0 line 第40行
项目模板中的列表视图视觉状态管理器（WinRT、Metro、XAML）

我正在尝试获取一个列表视图来显示由文本块组成的项目列表当单击列表视图项目时我想显示一个由文本框组成的列表以下是我想出来的它不起作用我在模板中有两个网格希望根据是否选择列表视图项来简单地显示和隐藏网格我哪里出错了我从列表视图的
Qt 3D 数组与 QVector 等 Qt-Objekts

如何仅使用 Qt Objects 创建 3D 数组该数组应该是 3D 整数数组我尝试在堆上创建一个标准的 3D 数组在堆上分配内存效果很好如果我想释放内存我会遇到错误 const int scalefaktor 16 int an
为什么 IOS5 中不推荐使用 Accelerometer:didAccelerate: ？

iOS5的发布就有这个核心功能列为已弃用 https developer apple com library prerelease ios documentation UIKit Reference UIAccelerometerDeleg
以编程方式运行散景服务器以在本地浏览器中显示

我正在进行交互式数据操作bokeh 0 12 6 我将在包中部署的实用程序这个想法是用户可以运行一些例程module utility 这将启动散景服务器在浏览器中启动应用程序当选项卡或浏览器关闭时服务器将停止如果我运行我的应用程
如何在 Pentaho BI 服务器 v6 CE 上部署计划的 Kettle 作业

我有一台运行 Pentaho BI 服务器 v6 社区版的服务器我们开发了一项 Kettle 作业用于从一个数据库提取到另一个数据库并导出为 KJB 文件我想每 12 个小时左右运行一次这项工作我注意到BI服务器已经包含了Kett
如何在没有互联网连接的情况下本地安装 NodeJS 项目？

我有一个项目必须将其部署到无法连接到互联网的客户端 Windows 系统我目前在 D NODE 中有一个文件夹其中包含 node exe 和 npm cmd 以及一个 node modules 文件夹为了能够从命令行运行节点我已将
.htaccess 文件的位置

var www html My project folder 是我的项目的路径我没有找到 htaccess 文件我想粘贴我编辑的 htaccess 文件但我不确定我需要放在哪个位置我的 htaccess 文件代码是
Bash 脚本中的 SSH 搞乱了文件读取 [重复]

这个问题在这里已经有答案了我有一个脚本可以逐行读取文件并根据读取的内容执行操作它所做的事情之一是通过 ssh 连接到远程服务器并获取一些信息由于某种完全超出我能力范围的原因这会停止从文件中读取行该脚本本质上是我已经删除了很多
寻找Python字典中最大的键

General 我需要帮助在 python 中找到一种方法来获得最大值N多维Python字典中的项目例如 things car weight 100 apple weight 1 spanner weight 10 在这种情况下我想找到
JavaFX WebView 进度始终从 0.0 到 1.0。（无中间值）

我目前正在使用 GluonHQ JavaFXPorts 开发一个应用程序其中我使用 WebView 加载一些 Internet 页面我注意到当我在桌面上使用以下代码时 webEngine getLoadWorker progressPr
undefined 不是一个对象（评估 'ImagePickerManager.showImagePicker'）

我正在尝试使用react native image picker 但卡在这里它总是显示错误如下图所示 undefined 不是一个对象评估 ImagePickerManager showImagePicker 有人遇到过这个问题吗我
使用 Python 的函数返回值为 shell 变量赋值

我有一个 Python 函数 fooPy 它返回一些值整数双精度或字符串我想使用这个值并在 shell 脚本中分配它例如以下是 python 函数 def fooPy return some string return 10 alt
使用 API 通过 Nodejs 使用 Drive.files.copy 将 Word 文档转换为 Google 文档在 Google Drive API v3 中进行转换

我正在尝试通过 Node js 使用 API 将 Word 文档转换为 Google 文档单词文档已经在一个文件夹中我只想将它们转换为谷歌文档我正在使用v3 The v3 docs https developers google co
PHP EOF 仅显示循环的一个结果

我在 PHP 中使用 EOF 问题是它只显示来自 mySQL 循环的一项它仅显示最后的结果这在EOF中有必要吗或者我可以避免这个问题吗 Thanks function getYiBAdminBanner global site glo
R try catch 块

我正在尝试在循环中评估树的多个输出参数但有时树功能会中止这些行如何被 try catch 块包围我很抱歉没有真正的代码但我没有非工作树的示例这是pseddo代码来说明当前的实现 for icol in seq 1 ncol c
如何从纬度和经度找出地图瓦片坐标？

我正在使用 Mapbox 矢量切片从后端进程收集特定数据在示例中他们提供了曼哈顿图块的链接 http a tiles mapbox com v3 examples map zr0njcqy 14 4823 6160 png http a
如何在管道中使用导管下降功能？

我有一个简单的任务从文件中读取一堆行并对每一行执行一些操作除了第一个这是一些需要忽略的标题所以我想我应该尝试一下管道 printFile src runResourceT CB sourceFile src CT decode CT
有没有办法获得 dask 中每组最大的项目？

我有以下数据集 location category percent A 5 100 0 B 3 100 0 C 2 50 0 4 13 0 D 2 75 0 3 59 0 4 13 0 5 4 0 我正在尝试获取数据框中按位置分组的最大类别

有没有办法获得 dask 中每组最大的项目？

有没有办法获得 dask 中每组最大的项目？ 的相关文章

随机推荐

热门标签

有没有办法获得 dask 中每组最大的项目？的相关文章