在 Pandas 中，如何根据列的值对多索引的一个级别进行排序，同时保持另一级别的分组

2024-03-29

我现在正在大学学习数据挖掘课程，但我有点陷入多索引排序问题。

实际数据涉及大约 100 万条电影评论，我试图根据美国邮政编码进行分析，但为了测试如何做我想做的事，我一直在使用一个小得多的数据集，其中包含 250 个随机生成的数据集我使用的是年龄组，而不是邮政编码，而是 10 部电影的评级。

这就是我现在所拥有的，它是 Pandas 中的多索引 DataFrame，有两个级别：“组”和“标题”

                        rating
group       title   
            Alien       4.000000
            Argo        2.166667
Adults      Ben-Hur     3.666667
            Gandhi      3.200000
            ...         ...

            Alien       3.000000
            Argo        3.750000
Coeds       Ben-Hur     3.000000
            Gandhi      2.833333
            ...         ...

            Alien       2.500000
            Argo        2.750000
Kids        Ben-Hur     3.000000
            Gandhi      3.200000
            ...         ...

我的目标是根据组内的评级对标题进行排序（并且只显示每个组中最受欢迎的 5 个左右的标题）

像这样的东西（但我只会在每组中显示两个标题）：

                        rating
group       title   
            Alien       4.000000
Adults      Ben-Hur     3.666667

            Argo        3.750000
Coeds       Alien       3.000000

            Gandhi      3.200000
Kids        Ben-Hur     3.000000

有人知道怎么做吗？我尝试过 sort_order、sort_index 等并交换级别，但它们也混淆了组。所以它看起来像：

                          rating
group         title 
Adults        Alien      4.000000
Coeds         Argo       3.750000
Adults        Ben-Hur    3.666667
Kids          Gandhi     3.666667
Coeds         Alien      3.000000
Kids          Ben-Hur    3.000000

我正在寻找这样的东西：Pandas 中的多索引排序 https://stackoverflow.com/questions/17242970/multi-index-sorting-in-pandas，但我不想根据另一个级别进行排序，而是想根据值进行排序。有点像那个人想根据他的销售栏进行排序。

Thanks!

您正在寻找sort http://pandas.pydata.org/pandas-docs/stable/generated/pandas.Series.sort.html:

In [11]: s = pd.Series([3, 1, 2], [[1, 1, 2], [1, 3, 1]])

In [12]: s.sort()

In [13]: s
Out[13]: 
1  3    1
2  1    2
1  1    3
dtype: int64

笔记;这可以就地工作（即修改 s），以返回副本使用order http://pandas.pydata.org/pandas-docs/stable/generated/pandas.Series.order.html:

In [14]: s.order()
Out[14]: 
1  3    1
2  1    2
1  1    3
dtype: int64

更新：我意识到你实际上在问什么，我认为这应该是 sortlevels 中的一个选项，但现在我认为你必须重置索引，groupby 并应用：

In [21]: s.reset_index(name='s').groupby('level_0').apply(lambda s: s.sort('s')).set_index(['level_0', 'level_1'])['s']
Out[21]: 
level_0  level_1
1        3          1
         1          3
2        1          2
Name: 0, dtype: int64

注意：之后您可以将级别名称设置为[无，无]。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

在 Pandas 中，如何根据列的值对多索引的一个级别进行排序，同时保持另一级别的分组的相关文章

用顶点之间的渐变填充 matplotlib 多边形

我正在使用 matplotlib 的 Poly3DCollection 绘制多边形三角形的集合三角形位于具有与其关联的颜色的顶点之间我目前正在用通过平均三个顶点的颜色确定的纯色填充每个三角形绘制三角形以形成 3D 表面网格 I w
java中数字字符串间隔排序

我正在与一些人一起上一个人课其中有姓名年龄范围等详细信息年龄区间为 0 5 6 10 11 30 31 45 46 50 50 100 100 110 我正在上 Person 课name ageBand字符串间隔及其参数化构造函数 g
Boto3 - 打印 AWS 实例平均 CPU 利用率

我正在尝试仅打印 AWS 实例的平均 CPU 利用率此代码将打印出响应但最后的 for 循环不会打印平均利用率有人可以帮忙吗先感谢您 import boto3 import sys from datetime import dat
从以元组为键的字典中获取 pandas 数据框

我是Python新手并且已经在这个问题上挣扎了一段时间我有一个这样的字典 dict1 a a 5 a b 10 a c 11 b a 4 b b 8 b c 3 我想做的是将其转换为 pandas 数据框如下所示 a b c a 5
对自定义类进行排序而不使用“key”参数？

您可以对数组进行排序myclass通过使用key论证sorted功能 sortedlist sorted myclasses key lambda obj obj myproperty 有没有办法为我们的班级定义自然顺序也许有一些神奇的方
TypeError：PyQt4.QtCore.QVariantAnimation 表示 C++ 抽象类，无法实例化

我有这个 PyQt5 片段我正在尝试将其转换为 PyQt4 PyQt5 版本运行得很好但是当我尝试转换为 PyQt4 时出现此错误我删除了QtWidgets但我仍然收到此错误我也尝试过实例化self animation QtCor
如何将 pymongo.cursor.Cursor 转换为字典？

我正在使用 pymongo 查询一个区域内的所有项目实际上是查询地图上一个区域内的所有场馆我用了db command SON 在搜索球形区域之前它可以返回一本字典字典中有一个名为results其中包含场馆现在我需要在一个正方形区域
如何模拟嵌套函数？

我想模拟特定函数中的一些嵌套函数 tools py def cpu count def get cpu quota return int load sys fs cgroup cpu cpu cfs quota us def get cpu
如何从 __subclasses__ 中删除类？

当从类继承时子类可以通过父类访问 subclasses method class BaseClass pass class SubClass BaseClass pass BaseClass subclasses
如何更新 certifi 的根证书？

我正在使用 certifi python 模块来验证 ssl 连接我查看了 certifi python2 7 site packages certifi cacert pem 中包含的根证书其中一些证书已过期我如何更新这些证书我尝
python中根据变量类型处理数据子集

我将以下数据存储在 csv df sample csv 中我将列名放在名为 cols list 的列表中 df 数据样本 df data sample pd DataFrame new video BASE SHIVER PREFER
利用“写入时复制”将数据复制到 Multiprocessing.Pool() 工作进程

我有一点multiprocessingPython 代码看起来有点像这样 import time from multiprocessing import Pool import numpy as np class MyClass objec
如何使用python将下载的音频文件扩展名重命名为mp3

目前我正在尝试根据艺术家姓名和歌曲标题将 YouTube 音乐视频下载为音频文件下载所有视频后我尝试将所有音频文件从 webm 或 mp4 扩展名重命名为 mp3 但似乎我在将文件名和扩展名更改为 mp3 时遇到了一些错误我的代码基
在 python matplotlib 中格式化损坏的 y 轴

我正在 matplotlib 中处理一个相当复杂的条形图它包含来自多个源的摘要数据每个源都沿 x 轴标记 y 轴上有一系列结果许多结果都是异常值我尝试使用断开的 y 轴来显示这些结果而不会使用以下组合来扭曲整个图表这个方法 h
带有多表查询的 SQL Join 版本的 Djangoviews.py

需要一些有关 Django 版本的 SQL 多表查询的帮助该查询使用 3 个表来检索餐厅名称地址Restaurants table和美食类型来自Cuisinetypes table 所有这些都基于通过 URL 传递的菜品名称菜品 ID
如何将目录导入为 python 模块

如果有目录 home project aaa 我知道它是一个Python包那么我如何通过知道它的路径来导入这个模块这意味着我希望代码能够正常工作 aaa load module home project aaa 我知道的唯一方法是
为什么“模型尚未加载”？

我正在尝试使用 customUser 安装 django registration redux 我已将其包含在我的 settings py 中 AUTH USER MODEL app customUser 注册表位于目录 registrat
如何在 nltk 中使用 hunpos 标记文本文件？

有人可以帮我解决在 nltk 中标记语料库的 hunpos 语法吗我要导入什么hunpos HunPosTagger module http nltk googlecode com svn trunk doc api nltk tag h
字典条目被覆盖？ [复制]

这个问题在这里已经有答案了我发现一些输入没有存储在 Python 3 的字典中运行这段代码 N int input How many lines of subsequent input graph for n in range N st
为什么这个多处理代码会失败？ [复制]

这个问题在这里已经有答案了 def sample pass Process target sample start Process target sample start 上面的代码失败并出现错误已尝试在当前进程之前启动新进程进程已完成

随机推荐

将文本渲染到 kivy 画布

我正在尝试在奇异的画布中绘制自己的图形现在我有一个红色或绿色的矩形每秒改变一次颜色但我想添加一个变化的文本标签经过一番搜索后似乎没有可以添加到画布的文本指令我发现了一些关于使用 Label 小部件以及画布说明的参考但这
有没有替代 imread 命令来减少 matlab 程序中的延迟？

我在此路径 G newdatabase 中有 2900 个图像读取图像花费了太多时间对于点积它也花费了太多时间问题 1 是否有任何替代 imread 命令来提高性能 2 是否有任何替代点命令可以提高性能我尝试过的源代码 srcFi
为什么windows第一次打开文件那么慢，有没有更快的方法

这是 Windows 7 64 位专业版使用考虑一个非常简单的循环 for i 0 i lt names gt size i std string Name names gt at i HANDLE fileHandle CreateF
使用 MAMP 在 Mac 上出现“db: SQLSTATE[HY000] [2002] 连接被拒绝”错误

我正在尝试运行此 PHP 数据库的 CLI 版本搜索和替换脚本 https github com interconnectit Search Replace DB 但我认为这是一个与 Mac OS X 和 MAMP 相关的更常见的 MySQ
如何使用 Errai 将 GWT 与 JAX-RS/RESTEasy 服务器集成？

我想从 GWT 客户端应用程序调用使用 RESTEasy 和 JAX RS 创建的 REST 服务使用 Errai 为服务器和客户端使用单一代码库的最佳流程是什么我们都喜欢休息它与供应商平台和语言无关调试实施和访问都很简单它为
Spring和hibernate：没有找到当前线程的会话

我收到以下错误 org hibernate HibernateException No Session found for current thread at org springframework orm hibernate4 Sprin
连接两个表后的 SQL 更新

我是 SQL 新手正在使用 Microsoft SQL Server Management Studio 我正在尝试编写一个 SQL 语句在连接两个表后执行更新我有两张桌子 myTable1 and myTable2 两者共享一个领域
CSS 不透明度如何影响可访问性？

在浏览了一些谷歌和其他 SO 文章后我决定简单地提出我的问题希望得到一个简单直接的答案为讨论添加进一步的步骤opacity 0 与visibility hidden 的效果完全相同吗 https stackoverflow com
Flex ModuleLoader 组件导致内存泄漏。如何正确卸载模块？

该应用程序太大无法在此描述但我可以告诉您我有多达 20 个或更多模块可供客户端随时使用如果我继续加载一个又一个屏幕我的应用程序可能会占用 500MB 甚至更多我用来加载和卸载模块的脚本是 public function crea
静态函数中不可访问非静态成员

我定义了一个函数 HRESULT AMEPreviewHandler CreateHtmlPreview ULONG CbRead const int Size 115000 char Buffer Size 1 HRESULT hr m
检测其他 UIView 中是否触摸了某个 UIView

我有 3 个 UIView 分层在一个大 uiview 之上我想知道用户是否触摸了最上面的一个而不关心其他的我将在第二个 UIView 中有几个按钮在第三个 UIView 中有一个 UITable 问题是我在第一个视图上打开 user
我可以在 LINQ 查询中使用扩展方法吗？

我有以下代码 public QuestionDetail GetQuestionDetail int questionId Question question questionsRepository GetById questionId Q
SpringBoot不处理org.hibernate.exception.ConstraintViolationException

我在实体类中定义了一个用于验证电子邮件的模式在我的验证异常处理程序类中我添加了 ConstraintViolationException 的处理程序我的应用程序使用 SpringBoot 1 4 5 配置文件 java Entity
如何访问 WPF Canvas 类的子级？

如何访问 WPF Canvas 类的子级这是一门很酷的课程我喜欢你添加孩子的方式但是一旦它们存在您如何查看它们以阅读它们的状态和内容我知道如果将孩子放在 XAML 中会很容易但是如果您在运行时动态地将子项添加到画布中该怎么办
CSS 边框混乱

只是困惑为什么当悬停在 border bottom 时边框与内容配合得很好但当更改为 border top 时它会向下推内容这是代码 ul list style type none margin 0 padding 0 width
有什么方法可以判断用户的python环境是否是anaconda

我正在分发一个内部 python 库如果用户在运行此文件时使用 anaconda 则将自动更新库的依赖项这是应要求提供的如果由我决定我会让用户控制他们自己的软件包到目前为止我想出了类似的东西 def user has conda
Ruby、Rails 和两个日期之间的差异

我会让这个例子说明一切 ruby 1 9 2 p0 gt DateTime now gt Mon 14 Feb 2011 20 02 49 0100 ruby 1 9 2 p0 gt User first created at gt Tue
如何在Wordpress中通过父页面标题获取页面的所有子页面？

例子 About technical medical historical geographical political 如何创建这样的函数 function get child pages by parent title title th
点源变量 VS 全局变量

我有两种从单独的脚本文件引用脚本变量的方法以下是两个基本示例 1 点源变量 ps1 Source source Destination dest 执行 ps1 Variables ps1 Copy Item Path Source Des
在 Pandas 中，如何根据列的值对多索引的一个级别进行排序，同时保持另一级别的分组

我现在正在大学学习数据挖掘课程但我有点陷入多索引排序问题实际数据涉及大约 100 万条电影评论我试图根据美国邮政编码进行分析但为了测试如何做我想做的事我一直在使用一个小得多的数据集其中包含 250 个随机生成的数据集我使用的是年

在 Pandas 中，如何根据列的值对多索引的一个级别进行排序，同时保持另一级别的分组

在 Pandas 中，如何根据列的值对多索引的一个级别进行排序，同时保持另一级别的分组 的相关文章

随机推荐

热门标签

在 Pandas 中，如何根据列的值对多索引的一个级别进行排序，同时保持另一级别的分组的相关文章