数据帧中值对出现的次数

2024-02-19

我有包含以下列的数据框：

Name, Surname, dateOfBirth, city, country

我有兴趣找出最常见的名字和姓氏组合以及它出现的频率。如果能看到前 10 名组合的列表就好了。

我对第一名的想法是：

mostFreqComb= df.groupby(['Name','Surname'])['Name'].count().argmax()

但我认为它没有给我正确的答案。非常感谢您的帮助！

谢谢，鼻

有关以下解决方案的性能影响，请参阅Pandas groupby.size vs series.value_counts vs collections.Counter 具有多个系列 https://stackoverflow.com/questions/50328246/pandas-groupby-size-vs-series-value-counts-vs-collections-counter-with-multiple。下面首先介绍它们，其中性能最佳。

GroupBy.size https://pandas.pydata.org/pandas-docs/stable/generated/pandas.core.groupby.GroupBy.size.html

您可以使用（姓名，姓氏）元组索引创建一系列计数GroupBy.size:

res = df.groupby(['Name', 'Surname']).size().sort_values(ascending=False)

通过对这些值进行排序，我们可以轻松提取最常见的值：

most_common = res.head(1)
most_common_dups = res[res == res.iloc[0]].index.tolist()  # handles duplicate top counts

value_counts https://pandas.pydata.org/pandas-docs/stable/generated/pandas.Series.value_counts.html

另一种方法是构造一系列元组，然后应用pd.Series.value_counts:

res = pd.Series(list(zip(df.Name, df.Surname))).value_counts()

结果将是一系列按姓名组合索引的计数，从最常见到最少排序。

name, surname = res.index[0]  # return most common
most_common_dups = res[res == res.max()].index.tolist()

collections.Counter https://docs.python.org/3/library/collections.html#collections.Counter

如果你想创建一个字典(name, surname): counts条目，您可以通过collections.Counter:

from collections import Counter

zipper = zip(df.Name, df.Surname)
c = Counter(zipper)

Counter有有用的方法，例如most_common，您可以使用它来提取结果。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

series

数据帧中值对出现的次数的相关文章

使用 Python 创建 MIDI

本质上我正在尝试从头开始创建 MIDI 并将它们放到网上我对不同的语言持开放态度但更喜欢使用Python 两种语言之一如果这有什么区别的话并且想知道我应该使用哪个库提前致谢看起来这就是您正在寻找的适用于 Python 的简单
TensorFlow：带有轴选项的 bincount

在 TensorFlow 中我可以使用 tf bincount 获取数组中每个元素的计数 x tf placeholder tf int32 None freq tf bincount x tf Session run freq feed
numpy python 中的“AttributeError：'matrix'对象没有属性'strftime'”错误

我有一个维度为 72000 1 的矩阵该矩阵涉及时间戳我想使用 strftime 如下所示 strftime d m y 为了得到像这样的输出 11 03 02 我有这样一个矩阵 M np matrix timestamps 我使用了
字符串中的注释和注释中的字符串

我正在尝试使用 Python 和 Regex 计算 C 代码中包含的注释中的字符数但没有成功我可以先删除字符串以删除字符串中的注释但这也会删除注释中的字符串结果会很糟糕是否有机会通过使用正则表达式来询问不匹配注释中的字符串反之亦
如何在Python中高效地添加稀疏矩阵

我想知道如何在Python中有效地添加稀疏矩阵我有一个程序可以将大任务分解为子任务并将它们分配到多个 CPU 上每个子任务都会产生一个结果一个 scipy 稀疏矩阵格式为 lil matrix 稀疏矩阵尺寸为 100000x50
将 numpy 代码点数组与字符串相互转换

我有一个很长的 unicode 字符串 alphabet range 0x0FFF mystr join chr random choice alphabet for in range 100 mystr re sub W mystr 我想
编辑 Jupyter Notebook 时 VS Code 中缺少“在选择中查找”

使用 Jupyter Notebook 时 VSCode 中缺少在选择中查找按钮它会减慢开发速度所以我想请问有人知道如何激活它吗第一张图显示了在 python 文件中的搜索替换第二张图显示了笔记本电脑中缺少的按钮 Python
对使用 importlib.util 导入的对象进行酸洗

我在使用Python的pickle时遇到了一个问题我需要通过将文件路径提供给 importlib util 来加载一些 Python 模块如下所示 import importlib util spec importlib util sp
如何在 Django 中使用基于类的视图创建注册视图？

当我开始使用 Django 时我几乎使用 FBV 基于函数的视图来处理所有事情包括注册新用户但当我更深入地研究项目时我意识到基于类的视图通常更适合大型项目因为它们更干净且可维护但这并不是说 FBV 不是无论如何我将整个项目
Python Django-如何从输入文件标签读取文件？

我不想将文件保存在我的服务器上我只想在下一页中读取并打印该文件现在我有这个 index html
Python Pandas：如何对组中的所有项目进行分组并为其分配 id？

我有 df domain orgid csyunshu com 108299 dshu com 108299 bbbdshu com 108299 cwakwakmrg com 121303 ckonkatsunet com 121303
迭代列表的奇怪速度差异

我创建了两个重复两个不同值的长列表在第一个列表中值交替出现在第二个列表中一个值出现在另一个值之前 a1 object object 10 6 a2 a1 2 a1 1 2 然后我迭代它们不对它们执行任何操作 for in a1 p
Werkzeug 中的线程和本地代理。用法

首先我想确保我正确理解了功能的分配分配本地代理功能以通过线程内的模块包共享变量对象我对吗其次用法对我来说仍然不清楚也许是因为我误解了作业我用烧瓶如果我有两个或更多模块 A B 我想将对象C从模块A导入到模块B 但我
为什么我应该使用 WSGI？

使用 mod python 一段时间了我读了越来越多关于 WSGI 有多好的文章但没有真正理解为什么那么我为什么要切换到它呢有什么好处这很难吗学习曲线值得吗为了用 Python 开发复杂的 Web 应用程序您可能会使用更全面
在 Windows 上使用带有对数刻度的 matplotlib 时出现 Unicode 错误

我正在使用 python 2 6 和 matplotlib 如果我运行 matplotlib 库页面中提供的示例 histogram demo py 它工作正常我已经大大简化了这个脚本 import numpy as np import
以编程方式使用 Sphinx 特定指令解析 .rst 文件

我希望能够在 Python 中解析基于 sphinx 的 rst 以便进一步处理和检查就像是 import sphinx p sphinx parse path to file rst do something with p 似乎在 do
带有 RotatingFileHandler 的 Python 3 记录器超出 maxBytes 限制

我使用以下代码来限制日志文件的大小最小示例 import logging from logging handlers import RotatingFileHandler Set up logfile and message loggin
附加两个具有相同列、不同顺序的数据框

我有两个熊猫数据框 noclickDF DataFrame 0 123 321 0 1543 432 columns click id location clickDF DataFrame 1 123 421 1 1543 436 colu
OSX 上的 locale.getlocale() 问题

我需要获取系统区域设置来执行许多操作最终我想使用 gettext 翻译我的应用程序我打算在 Linux 和 OSX 上分发它但我在 OSX Snow Leopard 上遇到了问题 python Python 2 5 2 r252 60
操作错误：(sqlite3.OperationalError) SQL 变量太多，同时将 SQL 与数据帧一起使用

我有一个熊猫数据框如下所示 activity User Id 0 VIEWED MOVIE 158d292ec18a49 1 VIEWED MOVIE 158d292ec18a49 2 VIEWED MOVIE 158d292ec18a4

随机推荐

为什么我从 LDAP 属性中获取“System.__ComObject”？

我将是第一个承认这是被删减和过去的节目的人我以前没看过AD 实在是看不懂我想这就是我的下一个研究不管怎样这是一些测试代码它应该显示到期日期要么以可读的形式要么以刻度显示这并不重要这是一个 Web 表单在开发 Web 服务
易失性变量有用吗？如果是的话什么时候？

正在接听这个问题 https stackoverflow com questions 20339725 executing weka classification in c sharp in parallel 20339822 203398
为什么 gridfs get 不能仅按文件名处理文件 id (ObjectId)

我正在使用nodejs mongodb mongoose 和gridfs 当我尝试通过文件名获取文件时如果我想通过 id 获取它那么一切都工作得很好错误您要读取的文件不存在我使用以下代码 console log res pic i
在 MySQL 中使行处于非活动状态

是否有可能使 MySQL 中的一行处于非活动状态那么查询结果中不再使用这一行我的客户希望保留已删除的成员存在于数据库中但我不想编辑所有查询来检查成员是否已删除或者是否有一种简单的方法将整个行数据移动到另一个非活动表中您可以重命
PHP curl FTPes w/显式 TLS/SSL

我一直在尝试使用显式 TLS SSL 服务器推送到远程 FTP 但连接始终超时它正在连接但我不知道它在哪里停止但我假设它与 FTP TLS SSL 控制通道有关任何帮助将不胜感激通过 FileZilla 我可以毫无问题地进行连接
将 Groovy 应用程序和测试代码与 jlink 解决方案结合使用来捆绑 JavaFX

这是继这个优秀的解决方案 https stackoverflow com a 58541585 595305如何让 Gradle 将 JavaFX 与您的发行版捆绑在一起的问题注意规格 Linux Mint 18 3 Java 11 Ja
如何在构建服务器上使用“firebase login:ci”

我正在使用以下命令运行nodejs构建Github 工作流程 https help github com en actions automating your workflow with github actions configuring
将实际值从 fortran77 dll 返回到 c#

有人可以指出我在这里做错了什么吗 FORTRAN 77 dll 代码 pragma aux DON DON export parm value 8 value 8 SUBROUTINE DON DAA DBB DCC REAL 8 DAA
Javascript：将 OOP 方法附加到事件和“this”关键字

我是 OOP Javascript 新手并且在使用时遇到问题this关键字和事件我想要实现的是我有多个 DOM 对象并且不仅希望将公共事件绑定到它们还希望将有关上述对象的一些数据保留在全局容器中以提高运行时性能所以我所做的基本
为什么使用 scanf 读入字符串缓冲区可以在有或没有与号 (&) 的情况下工作？

我对某事有点困惑我的印象是读取 C 字符串的正确方法是scanf 沿着不用担心可能的缓冲区溢出这只是一个简单的例子 char string 256 scanf s string 然而以下似乎也有效 scanf s string 这只
比较 Excel 工作簿中两个工作表的最佳方法是什么

鉴于我有以下内容
为什么要使用字段而不是属性？

我对 C 还很陌生我认为属性是一件很棒的事情事实上这太棒了以至于我看不出使用字段有任何真正的优势即使对于私人领域属性提供的灵活性和模块化似乎充其量可以让您避免严重的头痛而最坏的情况则根本没有任何效果我看到的字段的唯一优点是您
将 iPhone X 旋转至横向时，封面图像左侧和下方出现空白

今天出现了一个奇怪的问题在测试一个简单的即将推出页面时我的 iPhone X 上的背景图像在旋转到横向时没有填充整个视口在 Chrome 和 Safari 中测试产生问题的简化示例 html background url htt
如何使这些按钮不显示为蓝色链接

所以我只是想创建一个小网站别担心这不会发生作为标题目前主页新闻图库和关于我们并不是指向另一个页面的实际按钮当我做 a href Mainpage htm Home a 该按钮变成紫色并带有下划线我知道这就是链接的显示方
实体框架一对零或一外键关联

我正在更改现有应用程序的后端以使用实体框架代码优先我使用 Visual Studio 2015 中的内置工具根据现有数据库生成 POCO 类这在大多数情况下都非常有效除了两个具有一对零或一关系的类之外这些是我的简化的课程 pub
在 Shiny 中获取响应头变量

我的 apache 将 LDAP 登录传递给变量X 远程用户在标题中但我不知道如何在 Shiny 应用程序中获取它有任何想法吗也许解决方案可以是一些java脚本好吧我解决了首先包含在ui Rjs函数 www js getLogi
Elasticsearch 自动完成或按令牌自动建议

我想就如何基于标记完成术语提出建议类似于谷歌的自动完成功能但仅使用一个标记或单词我想搜索将被标记化的文件名例如 BRAND Connect A1233 jpg 被标记为 brand connect a1234 和 jpg 现在我想征
如何在 Visual Studio 中搜索特定数据库表

我在 Visual Studio 中有 6 个 dtsx 设计文件作业步骤大多数情况下作业步骤运行 sql 代码并删除创建复制表如何搜索某个特定表格被触摸的位置我尝试了 control F 并浏览了菜单中的搜索选项我不认为
DataGridRow 上的 WPF DataGrid MouseOver

我不明白为什么代码的第一部分不起作用但第二部分却起作用 PART 1
数据帧中值对出现的次数

我有包含以下列的数据框 Name Surname dateOfBirth city country 我有兴趣找出最常见的名字和姓氏组合以及它出现的频率如果能看到前 10 名组合的列表就好了我对第一名的想法是 mostFreqComb d

热门标签