估算 scikit-learn 中的分类缺失值

2024-01-25

我有一些带有文本类型列的熊猫数据。这些文本列中还有一些 NaN 值。我想做的是将那些 NaN 归咎于sklearn.preprocessing.Imputer（用最常见的值替换 NaN）。问题出在执行上。假设有一个包含 30 列的 Pandas 数据框 df，其中 10 列具有分类性质。一旦我跑：

from sklearn.preprocessing import Imputer
imp = Imputer(missing_values='NaN', strategy='most_frequent', axis=0)
imp.fit(df)

Python 生成一个error: 'could not convert string to float: 'run1''，其中“run1”是带有分类数据的第一列中的普通（非缺失）值。

任何帮助将非常受欢迎

要使用数字列的平均值和非数字列的最常见值，您可以执行类似的操作。您可以进一步区分整数和浮点数。我想使用整数列的中位数可能是有意义的。

import pandas as pd
import numpy as np

from sklearn.base import TransformerMixin

class DataFrameImputer(TransformerMixin):

    def __init__(self):
        """Impute missing values.

        Columns of dtype object are imputed with the most frequent value 
        in column.

        Columns of other types are imputed with mean of column.

        """
    def fit(self, X, y=None):

        self.fill = pd.Series([X[c].value_counts().index[0]
            if X[c].dtype == np.dtype('O') else X[c].mean() for c in X],
            index=X.columns)

        return self

    def transform(self, X, y=None):
        return X.fillna(self.fill)

data = [
    ['a', 1, 2],
    ['b', 1, 1],
    ['b', 2, 2],
    [np.nan, np.nan, np.nan]
]

X = pd.DataFrame(data)
xt = DataFrameImputer().fit_transform(X)

print('before...')
print(X)
print('after...')
print(xt)

打印，

before...
     0   1   2
0    a   1   2
1    b   1   1
2    b   2   2
3  NaN NaN NaN
after...
   0         1         2
0  a  1.000000  2.000000
1  b  1.000000  1.000000
2  b  2.000000  2.000000
3  b  1.333333  1.666667

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

scikitlearn

imputation

估算 scikit-learn 中的分类缺失值的相关文章

pydev 调试器：严重警告：此版本的 python 似乎编译不正确（内部生成的文件名不是绝对的）[重复]

这个问题在这里已经有答案了通过运行 from sklearn datasets import fetch california housing import pandas as pd pd set option precision 4 m
如何迭代按值排序的 Python 字典？

我有一本字典比如 a 6 b 1 c 2 我想迭代一下by value 不是通过键换句话说 b 1 c 2 a 6 最直接的方法是什么 sorted dictionary items key lambda x x 1 对于那些讨厌 la
如何使用 Plotly 中的直方图将所有离群值分入一个分箱？

所以问题是我可以在 Plotly 中绘制直方图其中所有大于某个阈值的值都将被分组到一个箱中吗所需的输出但使用标准情节Histogram类我只能得到这个输出 import pandas as pd from plotly import
if 语句未命中中的 continue 断点

在下面的代码中两者a and b是生成器函数的输出并且可以评估为None或者有一个值 def testBehaviour self a None b 5 while True if not a or not b continue pri
为什么Python的curses中escape键有延迟？

In the Python curses module I have observed that there is a roughly 1 second delay between pressing the esc key and getc
python suds SOAP 请求中的名称空间前缀错误

我使用 python suds 来实现客户端并且在发送的 SOAP 标头中得到了错误的命名空间前缀用于定义由element ref 在 wsdl 中 wsdl 正在引用数据类型 xsd 文件请参见下文问题出在函数上GetRecord
从 python 发起 SSH 隧道时出现问题

目标是在卫星服务器和集中式注册数据库之间建立 n 个 ssh 隧道我已经在我的服务器之间设置了公钥身份验证因此它们只需直接登录而无需密码提示怎么办我试过帕拉米科它看起来不错但仅仅建立一个基本的隧道就变得相当复杂尽管代码示例将受
Numpy 过滤器平滑零区域

我有一个 0 及更大整数的 2D numpy 数组其中值代表区域标签例如 array 9 9 9 0 0 0 0 1 1 1 9 9 9 9 0 7 1 1 1 1 9 9 9 9 0 2 2 1 1 1 9 9 9 8 0 2 2 1
Pandas 根据 diff 列形成簇

我正在尝试使用 Pandas 根据表示时间以秒为单位的列中的差异来消除数据框中的一些接近重复项例如 import pandas as pd numpy as np df pd DataFrame 1200 1201 1233 1555
如何使用列表作为pandas数据框中的值？

我有一个数据框需要列的子集包含具有多个值的条目下面是一个带有运行时列的数据框其中包含程序在各种条件下的运行时 df condition a runtimes 1 1 5 2 condition b runtimes 0 5 0 7
将 2D NumPy 数组按元素相乘并求和

我想知道是否有一种更快的方法专用 NumPy 函数来执行 2D NumPy 数组的元素乘法然后对所有元素求和我目前使用np sum np multiply A B 其中 A B 是相同维度的 NumPy 数组m x n 您可以使用np
无法在 osx-arm64 上安装 Python 3.7

我正在尝试使用 Conda 创建一个带有 Python 3 7 的新环境例如 conda create n qnn python 3 7 我收到以下错误 Collecting package metadata current repoda
创建嵌套字典单行

您好我有三个列表我想使用一行创建一个三级嵌套字典 i e l1 a b l2 1 2 3 l3 d e 我想创建以下嵌套字典 nd a 1 d 0 e 0 2 d 0 e 0 3 d 0 e 0 b a 1 d 0 e 0 2 d 0
使用 NumPy 将非均匀数据从文件读取到数组中

假设我有一个如下所示的文本文件 33 346 1223 10 23 11 23 12 23 13 23 14 23 15 23 16 24 10 24 11 24 12 24 13 24 14 24 15 24 16 25 14 25 15
如何为每个屏幕添加自己的 .py 和 .kv 文件？

我想为每个屏幕都有一个单独的 py 和 kv 文件应通过 main py main kv 中的 ScreenManager 选择屏幕设计应从文件 screen X kv 加载类等应从文件 screen X py 加载 Screens
当鼠标悬停在上面时，intellisense vscode 不显示参数或文档

我正在尝试将整个工作流程从 Eclipse 和 Jupyter Notebook 迁移到 VS Code 我安装了 python 扩展它应该带有 Intellisense 但它只是部分更糟糕我在输入句点后收到建议但当将鼠标悬停在其上方
如何读取Python字节码？

我很难理解 Python 的字节码及其dis module import dis def func x 1 dis dis func 上述代码在解释器中输入时会产生以下输出 0 LOAD CONST 1 1 3 STORE FAST 0 x
从 Twitter API 2.0 获取 user.fields 时出现问题

我想从 Twitter API 2 0 端点加载推文并尝试获取标准字段作者文本和一些扩展字段尤其是用户字段端点和参数的定义工作没有错误在生成的 json 中我只找到标准字段但没有找到所需的 user fields 用户
迭代 pandas 数据框的最快方法？

如何运行数据框并仅返回满足特定条件的行必须在之前的行和列上测试此条件例如 1 2 3 4 1 1 1999 4 2 4 5 1 2 1999 5 2 3 3 1 3 1999 5 2 3 8 1 4 1999 6 4 2 6 1 5 1
Scrapy Spider不存储状态（持久状态）

您好有一个基本的蜘蛛可以运行以获取给定域上的所有链接我想确保它保持其状态以便它可以从离开的位置恢复我已按照给定的网址进行操作http doc scrapy org en latest topics jobs html http d

随机推荐

Boost Hana ：将 Hana 类型转换为 std::string

是否存在用于编译时转换 a 成员类型的 Boost Hana 方法Struct类型名的 std string 的 STL 容器的概念例如 MyType t std array
Vala：陷阱、提示和技巧

作为一名刚接触 Vala 的程序员您对刚接触该语言的人的第一条建议是什么这很大程度上取决于您来自什么背景如果您来自 C C Java 最好的建议是学习函数式编程 Vala 支持真正的闭包因此您应该深入学习如何使用 lambda
核心数据线程和锁争用问题

我目前正在编写 iOS 应用程序的同步引擎我正在编写的方法之一是重新加载数据函数其中应用程序重新下载用户的数据及其所有照片这是一项昂贵的操作时间方面所以我创建了一个NSOperation子类 SSReloadDataOperati
Dropzone 和 webpack encore

我正在尝试将 dropzone 集成到我的 Symfony 4 1 项目中但我遇到了麻烦我通过 npm 将 dropzone 添加到我的项目中 npm install dropzone In 资产 app js 我需要拖放区 use s
如何在 Oracle Commerce(ATG) 中使用生成动态 URL

我正在尝试使用 ProductLookup Droplet 在 jsp 中显示产品列表如下所示我还尝试提供一个超链接来导航到单个产品的产品详细信息页面
使用 Python 读取 CR2（原始佳能图像）标头

我正在尝试提取从 CR2 原始图片的佳能格式拍摄照片的日期时间我知道CR2规格 http lclevy free fr cr2 而且我知道我可以使用 Pythonstruct http docs python org library
ASP.NET Core：是否可以使用HttpClient获取文件并直接返回？

我有一个内部 API 可以获取并返回文件结果但是此 API 没有任何身份验证角色权限检查的概念并且无法修改以执行此操作我想在现有的 ASP NET Core 2 Web API 上创建一个 Web API 端点来进行权限检查调
Prolog 搜索从列表中减去 2 个元素的可能组合

这是本页的扩展问题 Prolog 可能删除列表中的元素 https stackoverflow com questions 33652059 prolog possible removal of elements in a list 336
在 Visual Studio 中调试/导航 JS 代码

有没有办法启用f12 or 查找所有参考文献 across JavaScript文件在视觉工作室我在用着要求JS在我的 SPA 中注册 js 文件我在用着骨干JS以及有什么技巧可以像使用 C net 代码一样在 Visual Stud
优化自定义 WordPress SQL 查询以获取用户元数据

我有以下查询并且它有效但由于它的堆积处理需要非常长的时间因此我需要帮助才能更快地获得此查询 SQL查询在查询中 PRODUCT ID 应替换为和产品 ID 号 SELECT b order id customer meta me
在 bin 文件夹之外的 ASP.NET 项目中解析程序集

我怎么能够解析程序集引用在 ASP NET Web 开发服务器的 bin 文件夹之外这对于没有相同 dll 的副本很有用什么都不起作用探测 web config 中的元素 http msdn microsoft com en us l
Grep 输出添加额外的破折号和换行符

我在 mac 上使用 bash 来运行一些 grep 并且使用随 macports 安装的 GNU grep 无论如何我正在尝试使用 grep 查询 fasta 文件 DNA 序列序列 ID 在一行上 DNA 序列在下一行以根据要查询
IOS 如何使用 nsscanner 类查找完整的 rss feed 链接

我正在致力于从基于 RSS feed 的项目中获取数据通过在 google 上搜索我发现通常在 HTML 源中以这种格式找到 RSS 链接所以我必须使用 nsscanner 类从 HTML 源中查找 RSS feed 的链接但我不
如何使用 google 地图 api v3 旋转地图方向

非常简短的问题因为我在谷歌地图 api V3 文档中找不到答案我正在寻找一个控件它允许我控制修改 api 地图的方向以便北不在顶部这可能吗如果是这样怎么办 Thanks 你可以这样做45度虚数 https developer
在 Maven 中创建 zip，并在 jar 旁边添加其他文件

我唯一的 Maven 经验是包含其他库因此我需要一个非常基本的解释来说明如何使用 Eclipse 在 Maven 中实现某些功能我想定期创建我的罐子然后我想再获取 3 个文件并将所有文件放在 1 个 zip 文件中我的 zip 内
如何传递对 aframe 组件的引用？

我正在编写一个自定义 aframe 组件来渲染基于很长的对象数组的网格 Aframe 文档仅将数组列为输入类型您可以在其中传递属性它将被解析为数组attributename 1 2 3 我想从外部将 JavaScript 引用传递到组件
相当于WPF中的InvokeRequired

WPF 中是否有与 Form InvokeRequired 等效的函数例如调度程序 InvokeRequired 这有点奇怪因为它没有出现在智能感知中但您可以使用 var dispatcher myDispatcherObject D
当 GPS（或定位服务）启动/停止时接收通知（通过 BroadcastReceiver）

我尝试了一种使用 BroadcastReceiver 来侦听的方法提供商已更改 http developer android com reference android location LocationManager html PROV
如何从 WCF 服务返回干净的 JSON？

我正在尝试从 WCF 服务返回一些 JSON 该服务只是从我的数据库返回一些内容我可以拿到数据但是我担心 JSON 的格式目前返回的 JSON 格式如下 d Age 35 FirstName Peyton LastName Man
估算 scikit-learn 中的分类缺失值

我有一些带有文本类型列的熊猫数据这些文本列中还有一些 NaN 值我想做的是将那些 NaN 归咎于sklearn preprocessing Imputer 用最常见的值替换 NaN 问题出在执行上假设有一个包含 30 列的 Panda

估算 scikit-learn 中的分类缺失值

估算 scikit-learn 中的分类缺失值 的相关文章

随机推荐

热门标签

估算 scikit-learn 中的分类缺失值的相关文章