使用 NaN 获取 pandas 系列模式的最快方法

2024-04-29

我需要找到 pandas groupby 对象或单个系列的模式/最常见元素，为此我有以下函数：

def get_most_common(srs):
    from collections import Counter
    import numpy as np

    x = list(srs)
    my_counter = Counter(x)
    if np.nan not in my_counter.keys():
        most_common_value = my_counter.most_common(1)[0][0]
    else:
        most_common_value = srs.mode(dropna=False).iloc[0]

    return most_common_value

如果出现平局，我不在乎选择哪一个——随机就可以了。

Counter当没有 NaN 时速度更快，但当有 NaN 时给出错误结果。pd.Series.mode总是正确的，但它比Counter当没有 NaN 时。这是一场赌博（由于额外的检查，当没有 NaN 时速度更快，但当有 NaN 时速度更慢）np.nan not in my_counter.keys()）。到目前为止，我在大型数据集上获得了令人满意的性能，可能是因为在很多情况下没有 NaN。但有没有办法让它更快呢？

我觉得很奇怪你得到了better性能使用Counter。这是我的测试结果（n=10000):

Using Series.mode on Series with nan: 52.41649858
Using Series.mode on Series without nan: 17.186453438
Using Counter on Series with nan: 269.33117825500005
Using Counter on Series without nan: 134.207576572

#-----------------------------------------------------#

             Series.mode  Counter
             -----------  -------------
With nan     52.42s       269.33s
Without nan  17.19s       134.21s

测试代码：

import timeit

setup = '''
import pandas as pd
from collections import Counter

def get_most_common(srs):
    return srs.mode(dropna=False)[0]

def get_most_common_counter(srs):
    x = list(srs)
    my_counter = Counter(x)
    return my_counter.most_common(1)[0][0]

df = pd.read_csv(r'large.data')
'''

print(f"""Using Series.mode on Series with nan: {timeit.timeit('get_most_common(df["has_nan"])', setup=setup, number=10000)}""")
print(f"""Using Series.mode on Series without nan: {timeit.timeit('get_most_common(df["no_nan"])', setup=setup, number=10000)}""")
print(f"""Using Counter on Series with nan: {timeit.timeit('get_most_common_counter(df["has_nan"])', setup=setup, number=10000)}""")
print(f"""Using Counter on Series without nan: {timeit.timeit('get_most_common_counter(df["no_nan"])', setup=setup, number=10000)}""")

large.data是 2 x 50000 行DataFrame随机 2 位数字字符串0 to 99, where has_nan has a mode of nan=551.

如果有的话，你的if np.nan not in my_counter.keys()条件总是会被触发，因为np.nan 不在my_counter.keys()。所以实际上你从未使用过pd.Series.mode，它一直在使用Counter。正如另一个问题中提到的，因为你的pandas对象已经创建了副本np.nan内Series/DataFrame, the in条件永远不会被满足。试一试：

np.nan in pd.Series([np.nan, 1, 2]).to_list()
# False

消除整个复杂性if/else并坚持使用一种方法。然后比较性能。正如您在其他问题中提到的，pandas 方法几乎总是比任何外部模块/方法更好的方法。如果您仍在观察其他情况，请更新您的问题。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

使用 NaN 获取 pandas 系列模式的最快方法的相关文章

分配列表的多个值

我很想知道是否有一种 Pythonic 方式将列表中的值分配给元素为了更清楚我要求这样的事情 myList 3 5 7 2 a b c d something myList So that a 3 b 5 c 7 d 2 我正在寻找比手
高效地将大型 Pandas 数据帧写入磁盘

我正在尝试找到使用 Python Pandas 高效地将大型数据帧 250MB 写入磁盘或从磁盘写入的最佳方法我已经尝试了所有方法Python 数据分析但表现却非常令人失望这是一个更大项目的一部分该项目探索将我们当前的分析数据管理
minAreaRect OpenCV 返回的裁剪矩形 [Python]

minAreaRectOpenCV 中返回一个旋转的矩形如何裁剪矩形内图像的这部分 boxPoints返回旋转矩形的角点的坐标以便可以通过循环框内的点来访问像素但是在 Python 中是否有更快的裁剪方法 EDIT See code在
Python设置1和True的解释

在 IPython 3 交互式 shell 中 In 53 set2 1 2 True hello In 54 len set2 Out 54 3 In 55 set2 Out 55 hello True 2 是因为 1 和 True 得到
如何使用我自己的自定义表单覆盖 django-rest-auth 中的表单？

我正在使用 django rest auth 并尝试通过覆盖表单的方法之一来修复密码重置视图中的错误尽管我已经使用不同的 django rest auth 表单成功完成了类似的操作但我无法让它在这个表单上工作无论我做什么都会使用旧的
如何检索分配给 Django 中的组的所有权限

我正在执行一项任务来检索分配给 Django 中的组的一组权限我可以使用以下代码获取创建的组但无法使用它来获取分配给它们的权限 from django contrib auth models import Group Permissio
在 Jupyter Notebook 中设置环境变量的不同方法

在某些情况下我在 Windows 10 计算机上使用 Jupyter 笔记本我想通过设置环境变量 GOOGLE APPLICATION CREDENTIALS 来向 GCP 进行身份验证我想知道这两种设置环境变量的方式有什么区别当
烧瓶 - 404 未找到

我是烧瓶开发的新手这是我在烧瓶中的第一个程序但它向我显示了这个错误在服务器上找不到请求的 URL 如果您输入了网址请手动检查拼写并重试这是我的代码 from flask import Flask app Flask name ap
样本（）和r样本（）有什么区别？

当我从 PyTorch 中的发行版中采样时两者sample and rsample似乎给出了类似的结果 import torch seaborn as sns x torch distributions Normal torch tens
Django Web 应用程序中的 SMTP 问题

我被要求向使用 Django Python 框架实现的现有程序添加一个功能此功能将允许用户单击一个按钮该按钮将显示一个小对话框表单以输入值我确实编写了一些代码显示电子邮件已发送的消息但实际上它没有发送 My code from
如何让 Streamlit 每 5 秒重新加载一次？

我必须每 5 秒重新加载 Streamlit 图表以便在 XLSX 报告中可视化新数据如何实现这一目标 import streamlit as st import pandas as pd import os mainDir os pa
如何全局安装 Python（开发）依赖项，以便我不必在每个 venv 中重新安装它们？

我希望在为每个项目创建的每个 venv 虚拟环境中都可以使用一些 Python 依赖项例如 black flake8 和 pytest 这可能吗如果可以如何实现我想安装这三个once在我的主要 Python 安装下我必须在启动新
更新 matplotlib 中颜色条的范围

我想更新一个contourf在函数内绘制效果很好然而数据的范围发生了变化因此我还必须更新颜色条这就是我未能做到的地方请参阅以下最小工作示例 import matplotlib pyplot as plt import numpy
如何在 Python 中跟踪日志文件？

我想在 Python 中提供 tail F 或类似内容的输出而无需阻塞或锁定我找到了一些非常旧的代码来做到这一点here http code activestate com recipes 436477 filetailpy 但我认为现
如何使用logging.conf文件使用RotatingFileHandler将所有内容记录到文件中？

我正在尝试使用RotatingHandler用于 Python 中的日志记录目的我将备份文件保留为 500 个这意味着我猜它将创建最多 500 个文件并且我设置的大小是 2000 字节不确定建议的大小限制是多少如果我运行下面的代码
Python RE（总之检查第一个字母是否区分大小写，其余部分不区分大小写）

在下面的情况下我想匹配字符串 Singapore 其中 S 应始终为大写其余单词可能为小写或大写但在下面的字符串 s 是小写的它在搜索条件中匹配任何人都可以让我知道如何实施吗 import re st Information in
在不同的 GPU 上同时训练多个 keras/tensorflow 模型

我想在 Jupyter Notebook 中同时在多个 GPU 上训练多个模型我正在使用 4GPU 的节点上工作我想将一个 GPU 分配给一个模型并同时训练 4 个不同的模型现在我通过例如为一台笔记本选择 GPU import
避免“散点/点/蜂群”图中的数据点重叠

使用绘制点图时matplotlib 我想偏移重叠的数据点以使它们全部可见例如如果我有 CategoryA 0 0 3 0 5 CategoryB 5 10 5 5 10 我想要每一个CategoryA 0 数据点并排设置而不是彼此重叠
旧版本的 spaCy 在尝试安装模型时抛出“KeyError: 'package'”错误

我在 Ubuntu 14 04 4 LTS x64 上使用 spaCy 1 6 0 和 python3 5 为了安装 spaCy 的英文版本我尝试运行这给了我错误消息 ubun ner 3 NeuroNER master src pyt
在 python 中使用高精度时间戳

嘿我正在使用 python 处理日期时间我想知道解析这个时间戳的最佳方法是什么时间戳是ISO标准这里是一个例子 2010 06 19T08 17 14 078685237Z 现在到目前为止我已经使用过 time datetime d

随机推荐

如何使我的滚动到顶部按钮动画流畅

我的页面上有一个滚动到顶部按钮但是当我单击它时它不会滚动到顶部它只是直接带我到顶部就像我加载了一个新页面一样但我需要的是滚动动画 javascript window onscroll function scrollFunction
如何修复 iOS 11 和 macOS V10.12 Safari 上损坏的变换原点？

我正在尝试使用 svg 来实现 CSS 动画我期望 2 个 svg 盒子正在旋转旋转 transform origin center center 360度看起来它在 Chrome 和 Firefox 上的表现符合我的预期但在 ma
如何修复“致命：无法创建工作树目录'WSL-Distribution-Switcher'：没有这样的文件或目录”

我目前正在尝试在我的笔记本电脑上安装 kali linux 但我陷入了这个错误请帮我解决这个问题谢谢 i typed cd Desktop cd Test Blank folder in Desktop git clone https
使用 ImportXml 在 Google Sheets 中抓取图像

我正在使用 Google Sheets 尝试从房地产网站上抓取图像以将其显示在单元格中以及房产详细信息旁边我已经能够使用一个简单的示例证明这是可能的但是当我尝试制定 xpath 查询来抓取我需要的特定图像时我不断收到错误作为一个工
重定向时需要 SSL 吗？

我从一位我不擅长的客户那里继承了一种奇怪的情况该客户端有 3 个域名主要域名是例如domain a com 他们还将domain b com 和domain c com 重定向到domain a com 所有域都位于同一服务器上所以
Robotium 和系统对话框

当我尝试与蓝牙设备配对时会出现带有 PIN 码的系统确认对话框有取消和确定按钮但我无法使用 Robotium 单击它们如何在 Robotium 中使用 Android 操作系统对话框谢谢这对我有用 solo clickO
Google Analytics 测量协议不起作用

我想跟踪在不同环境中运行的应用程序音隙构建节点 webkit 应用程序 website 为了对所有人使用一种跟踪机制我认为使用测量协议 https developers google com analytics devguides
如何格式化数字？ [复制]

这个问题在这里已经有答案了我想使用 JavaScript 格式化数字例如 10 gt 10 00 100 gt 100 00 1000 gt 1 000 00 10000 gt 10 000 00 100000 gt 100 000 0
拆分为不同的换行符

现在我正在做一个split在字符串上并假设用户的换行符是 r n像这样 string split r n 我想做的事分为两部分 r n要不就 n 那么正则表达式将如何分割其中的任何一个呢你试过了吗 r n The 使得 r选修的用法示例
删除一行中逗号之前的所有内容

我有多个文件其中包含以下行 foo 123456 bar 654321 baz 098765 我想删除每行逗号之前包括的所有内容输出将是 123456 654321 098765 在另一个问题上看到类似的内容后我尝试使用以下内容
Autofac：解决对命名实例的特定依赖关系

使用 Autofac 我想注册一个组件并指定要解析为命名实例的特定依赖项我使用构造函数注入找到了如下示例这几乎就是我想要的 builder Register c gt new ObjectContainer ConnectionStri
Gradle：“克隆”原始 jar 任务，为包含依赖项的 jar 创建新任务

我想在我的项目中创建一个新任务该任务使用我的项目的类文件和依赖项的类文件也称为 shaded jar 或 fat jar 创建一个 jar 存档 Gradle Cookbook 提出的解决方案修改了 JavaPlugin 的标准 jar
LINQ 表达式树 Any() 位于Where() 内

我正在尝试生成以下 LINQ 查询 Query the database for all AdAccountAlerts that haven t had notifications sent out Then get the entity
App Engine、PIL 和叠加文本

我正在尝试在 GAE 上的图像上覆盖一些文本现在他们公开了 PIL 库这应该不是问题这就是我所拥有的它有效但我不禁认为我应该直接写入背景图像而不是创建单独的覆盖图像然后合并我可以用吗Image frombuffer http
mcrypt_crypt 的替代方案？

根据 php 7 0 mcrypt decrypt 已被弃用我有以下代码 intSize mcrypt get iv size MCRYPT RIJNDAEL 256 MCRYPT MODE ECB strSize mcrypt crea
Swift 中的 StrongLoop 环回示例

我正在尝试在 Swift 中实现示例 LoopBack iOS 应用程序创建 LoopBack iOS 应用程序第 1 部分 http docs strongloop com display DOC Creating a LoopBac
MYSQL枚举：@rownum，奇偶记录

我问了一个关于为查询结果创建临时虚拟 ID 的问题 mysql 和 php 查询结果的临时虚拟 ID https stackoverflow com questions 4063998 mysql php temporary virtu
使用“容器ip”连接到docker容器

我在 mac 上运行 docker 我想使用 docker 容器的 ip 不是虚拟机的 ip 连接到它原因是 Spark 驱动程序将自身注册到容器 IP 172 17 0 2 并且从 mac 运行的客户端尝试连接到该地址有没有办法从 m
HTML 列表元素：将父级宽度分成相等的部分

我有一个父母 ol 和几个 li 中的项目 ol style display block li style display block Item 1 li li style display block Item 2 li li style
使用 NaN 获取 pandas 系列模式的最快方法

我需要找到 pandas groupby 对象或单个系列的模式最常见元素为此我有以下函数 def get most common srs from collections import Counter import numpy as n

使用 NaN 获取 pandas 系列模式的最快方法

使用 NaN 获取 pandas 系列模式的最快方法 的相关文章

随机推荐

热门标签

使用 NaN 获取 pandas 系列模式的最快方法的相关文章