如何在 Pandas 中用分组模式替换缺失值？

2024-04-10

我按照中的方法这个帖子 https://stackoverflow.com/questions/45741879/can-i-replace-nans-with-the-mode-of-a-column-in-a-grouped-data-frame用分组模式替换缺失值，却遇到“IndexError：索引超出范围”。

 df['SIC'] = df.groupby('CIK').SIC.apply(lambda x: x.fillna(x.mode()[0]))

我想这可能是因为某些组具有所有缺失值并且没有众数。有办法解决这个问题吗？谢谢你！

mode这是相当困难的，因为确实没有任何商定的方式来处理关系。而且它通常非常慢。这是一种“快速”的方法。我们将定义一个函数来计算每个组的众数，然后我们可以用map。我们不会遇到缺少组的问题，但对于关系，我们任意选择排序时首先出现的模态值：

def fast_mode(df, key_cols, value_col):
    """ 
    Calculate a column mode, by group, ignoring null values. 

    Parameters
    ----------
    df : pandas.DataFrame
        DataFrame over which to calcualate the mode. 
    key_cols : list of str
        Columns to groupby for calculation of mode.
    value_col : str
        Column for which to calculate the mode. 

    Return
    ------ 
    pandas.DataFrame
        One row for the mode of value_col per key_cols group. If ties, 
        returns the one which is sorted first. 
    """
    return (df.groupby(key_cols + [value_col]).size() 
              .to_frame('counts').reset_index() 
              .sort_values('counts', ascending=False) 
              .drop_duplicates(subset=key_cols)).drop(columns='counts')

样本数据`df`:

   CIK  SIK
0    C  2.0
1    C  1.0
2    B  NaN
3    B  3.0
4    A  NaN
5    A  3.0
6    C  NaN
7    B  NaN
8    C  1.0
9    A  2.0
10   D  NaN
11   D  NaN
12   D  NaN

Code:

df.loc[df.SIK.isnull(), 'SIK'] = df.CIK.map(fast_mode(df, ['CIK'], 'SIK').set_index('CIK').SIK)

Output `df`:

   CIK  SIK
0    C  2.0
1    C  1.0
2    B  3.0
3    B  3.0
4    A  2.0
5    A  3.0
6    C  1.0
7    B  3.0
8    C  1.0
9    A  2.0
10   D  NaN
11   D  NaN
12   D  NaN

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

如何在 Pandas 中用分组模式替换缺失值？的相关文章

如何在 Jupyter Notebook 中运行 Python 异步代码？

我有一些 asyncio 代码在 Python 解释器 CPython 3 6 2 中运行良好我现在想在具有 IPython 内核的 Jupyter 笔记本中运行它我可以运行它 import asyncio asyncio get ev
如何使用 colorchecker 在 opencv 中进行颜色校准？

我有数码相机获取的色彩检查器图像我如何使用它来使用 opencv 校准图像按照以下颜色检查器图像操作您是想问如何进行颜色校准或如何使用 OpenCV 进行校准为了进行颜色校准您可以使用校准板的最后一行灰色调以下是您应该逐步进行
numpy python 中的“AttributeError：'matrix'对象没有属性'strftime'”错误

我有一个维度为 72000 1 的矩阵该矩阵涉及时间戳我想使用 strftime 如下所示 strftime d m y 为了得到像这样的输出 11 03 02 我有这样一个矩阵 M np matrix timestamps 我使用了
使用 NLTK 在 Python 中获取大量名词（或形容词）；或 Python Mad Libs

Like 这个问题 https stackoverflow com questions 7439555 noun adjective etc word lists or dictionaries common words 我有兴趣按词性获取
“一旦获取切片就无法更新查询”。最佳实践？

由于我的项目的性质我发现自己不断地从查询集中取出切片如下所示 Thread objects filter board requested board id order by updatedate 10 但这给我带来了实际对我选择的元素进
如何在VIM中设置文件的正确路径？

每当我击中 pwd在 vim 中命令总是返回路径C Windows system32 即使我在桌面上的 Python 文件中所以每当我跑步时 python 命令返回 python can t open file Users myname
如何在Python中高效地添加稀疏矩阵

我想知道如何在Python中有效地添加稀疏矩阵我有一个程序可以将大任务分解为子任务并将它们分配到多个 CPU 上每个子任务都会产生一个结果一个 scipy 稀疏矩阵格式为 lil matrix 稀疏矩阵尺寸为 100000x50
如何使用正则表达式在 pandas 数据框中选择一行以及包含特定子字符串的行后面的固定行数

Problem 我有一个 pandas 数据框我试图从中提取特定行我感兴趣的行是包含日期的行以及紧随日期行之后的行重要的是我想将信息从日期后面的行移动到包含日期的行中的新列通过这样做我将在同一行上获得一个人的信息需要明确
如何使用 javascript/jquery/AJAX 调用 Django REST API？

我想使用 Javascript jQuery AJAX 在前端调用 Django Rest API 请求方法是 POST 但当我看到 API 调用它的调用 OPTIONS 方法时所以我开始了解access control allow o
CNTK 抱怨 LSTM 中的动态轴

我正在尝试在 CNTK 中实现 LSTM 使用 Python 来对序列进行分类 Input 特征是固定长度的数字序列时间序列标签是 one hot 值的向量 Network input input variable input dim
如何根据 HTTP 请求使用 Python 和 Flask 执行 shell 命令并流输出？

下列的这个帖子 https stackoverflow com questions 15092961 how to continuously display python output in a webpage 我能够tail f网页的日志
揭秘sharedctypes性能

在 python 中可以在多个进程之间共享 ctypes 对象然而我注意到分配这些对象似乎非常昂贵考虑以下代码 from multiprocessing import sharedctypes as sct import ctypes
如何使用 Bokeh 动态隐藏字形和图例项

我正在尝试在散景中实现复选框其中每个复选框应显示隐藏与其关联的行我知道可以通过图例来实现这一点但我希望这种效果同时在两个图中发生此外图例也应该更新在下面的示例中出现了复选框但不执行任何操作我显然不明白如何更新用作源的数据
GradientTape 根据损失函数是否被 tf.function 修饰给出不同的梯度

我发现计算的梯度取决于 tf function 装饰器的相互作用如下所示首先我为二元分类创建一些合成数据 tf random set seed 42 np random seed 42 x tf random normal 2 1 y
使用 NLP 进行地址分割

我目前正在开发一个项目该项目应识别地址的每个部分例如来自 str Jack London 121 Corvallis ARAD ap 1603 973130 输出应如下所示 street name Jack London no 121
PIL - 需要抖动，但限制调色板会导致问题

我是 Python 新手正在尝试使用 PIL 来执行 Arduino 项目所需的解析任务这个问题涉及到Image convert 方法以及调色板抖动等选项我有一些硬件能够一次仅显示 16 种颜色的图像但它们可以指定为 RGB 三元
附加两个具有相同列、不同顺序的数据框

我有两个熊猫数据框 noclickDF DataFrame 0 123 321 0 1543 432 columns click id location clickDF DataFrame 1 123 421 1 1543 436 colu
python 日志记录会刷新每个日志吗？

当我使用标准模块将日志写入文件时logging 每个日志会分别刷新到磁盘吗例如下面的代码会将日志刷新 10 次吗 logging basicConfig level logging DEBUG filename debug log fo
如何使用Python保存“完整的网页”而不仅仅是基本的html

我正在使用以下代码来使用 Python 保存网页 import urllib import sys from bs4 import BeautifulSoup url http www vodafone de privat tarife r
使用 Python 将对象列表转为 JSON

我在转换时遇到问题Object实例到 JSON ob Object list name scaping myObj base url u number page for ob in list name json string json du

随机推荐

如何在 emacs elisp 中查找哪个文件提供该功能

目前我正在使用加载历史记录变量来查找某个功能来自的文件假设找到该文件的特征gnus来自我在暂存缓冲区中执行以下代码该代码在单独的行中连续打印文件名和符号 dolist var load history princ format s n
正则表达式和 GWT

我的问题是在GWT中使用正则表达式有没有好的解决方案例如我对 String split regex 的使用不满意 GWT 将代码翻译为 JS 然后将正则表达式用作 JS 正则表达式但我无法使用 Java Matcher 或 Java
使应用程序在越狱设备上自行重启

我的 iOS 应用程序是否可以在每次用户访问其主屏幕时自动重新启动这是针对越狱设备的该应用程序不适用于应用程序商店一般来说鉴于应用程序外部的特定用户操作如何让我的应用程序重新启动加速度计如果您只想让您的应用程序在遇到某些加速计
使用其名称来响应渲染组件

我正在试验 React js 它运行得非常好我想知道是否可以将类注入到其他类中如下所示 var Container React createClass render function lt this props implComponen
Windows 中的 Perl Kill(0, $pid) 总是返回 1

我正在尝试制作一个 Perl 脚本来运行 Windows 中的一组其他程序我需要能够捕获进程的 stdout stderr 和退出代码并且需要能够查看进程是否超出了分配的执行时间现在我的代码的相关部分如下所示 pid open3 w
如何在 Rails 中实现计数器缓存？

我有一个帖子控制器和一个评论控制器帖子有很多评论评论属于帖子关联是在 counter cache 选项打开的情况下设置的如下所示 Inside post rb has many comments Inside comment rb
自定义指令中的 ng-class 不观察更新

我正在尝试创建一个像这样使用的指令
OpenCV 模板匹配 N 个最佳匹配不起作用

我已经为此苦苦挣扎了很长一段时间但似乎找不到这里的问题让我尝试引导您完成整个过程我正在尝试为我的模板匹配获取 10 个最佳边界框不会在这里显示整个图像但这是我的cv mat当我循环遍历cv mat搜索最低值结果 int a b
ggplot2：如何调整图例中的线型+顺序？

我想调整以下 ggplot 中的线型因此我在 data frame df 中引入另一列来表示线型但是一旦我将其转换为因子线型而不是方法就会出现在图例中参见试验 3 如何获得传说中的方法最后我希望能够自由选择线型自由选择
为什么反射可以访问C#中类的受保护/私有成员？

为什么反射可以访问C 中类的受保护私有成员这对课堂来说不安全吗为什么反思会被赋予如此大的力量这是一个反模式 http en wikipedia org wiki Anti pattern 会员可访问性不是安全功能它的存在是为了保护
仅在 iOS 和 Android 中处理数据通知失败

我有一个发送推送通知的服务器对于Android 我覆盖onMessageReceived来处理消息对于 iOS 我使用NotificationExtension I need更改传入的推送通知我不知道标题和服务器端的所有内容客户端知
HttpClient HttpResponseMessage 地址/URI

我正在开发一个 C WinRT 应用程序该应用程序向网络服务器发出 POST 和 GET 请求有谁知道使用 HttpClient 对象时是否有办法获取响应 URI 地址如果我使用 HttpWebRequest HttpWebRespo
使用jq连接多个文件中的JSON数组

我有一系列包含记录数组的 JSON 文件例如 cat f1 json records a 1 a 3 cat f2 json records a 2 我想 1 从每个记录中提取一个字段 2 输出一个包含所有输入文件中所有字段值的数组第一
C：创建静态库并使用 Makefile 进行链接

我在尝试着了解静态和共享库 http randu org tutorials c libraries php 我想执行以下操作来创建一个单独编译和链接的 makefile 以便创建和链接静态库形成最终的静态可执行文件我有以下 Makef
在java应用程序中使用“bcc”发送电子邮件而不使用“to”

我已经阅读了 stackoverflow 中的所有参考资料然而没有任何东西符合我们的目标我该如何使用bccjava中的sendmail方法根据 SMTP 的 RFC RFC 2821 link http www ietf org r
mySQL SELECT 即将到来的生日

我正在尝试编写一个查询来选择数据库中生日在未来 7 天内的用户我做了很多研究但无法想出可行的解决方案生日字段存储为 varchar 例如 04 16 93 有什么办法可以处理这个吗这是我到目前为止所拥有的 SELECT FROM P
为什么一个简单的 React 组件会渲染两次？

我刚刚启动了一个新的 create react app 项目并注意到 React 渲染组件两次我的反应版本在包 json is react 16 13 1 import React useRef from react const App
Tomcat 未从 eclipse 启动

我试图从 eclipse 启动 tomcat 服务器 6 0 32 不是我的应用程序但它失败并出现错误 Server Apache Tomcat v6 0 32 at localhost failed to start 但是当我用star
Windows 窗体中的淡入淡出效果

我正在尝试使用 Windows 窗体向按钮图片框和文本框添加一些淡入淡出效果我知道我应该为此使用 WPF 但我从未使用过它这对我来说太复杂了我的项目现在要高级以切换平台我有这个但不透明褪色效果一点也不平滑 public voi
如何在 Pandas 中用分组模式替换缺失值？

我按照中的方法这个帖子 https stackoverflow com questions 45741879 can i replace nans with the mode of a column in a grouped data fr

如何在 Pandas 中用分组模式替换缺失值？

样本数据df:

Code:

Output df:

如何在 Pandas 中用分组模式替换缺失值？ 的相关文章

随机推荐

热门标签

样本数据`df`:

Output `df`:

如何在 Pandas 中用分组模式替换缺失值？的相关文章