使用 scikit-learn OneHotEncoder 时如何处理分类数据中的缺失值 (NaN)？

2024-03-15

我最近开始学习 python，以便使用机器学习方法为研究项目开发预测模型。我有一个由数值数据和分类数据组成的大型数据集。数据集有很多缺失值。我目前正在尝试使用 OneHotEncoder 对分类特征进行编码。当我读到 OneHotEncoder 时，我的理解是，对于缺失值 (NaN)，OneHotEncoder 会将 0 分配给所有特征的类别，如下所示：

0     Male 
1     Female
2     NaN

应用 OneHotEncoder 后：

0     10 
1     01
2     00

但是，当运行以下代码时：

    # Encoding categorical data
    from sklearn.compose import ColumnTransformer
    from sklearn.preprocessing import OneHotEncoder


    ct = ColumnTransformer([('encoder', OneHotEncoder(handle_unknown='ignore'), [1])],
                           remainder='passthrough')
    obj_df = np.array(ct.fit_transform(obj_df))
    print(obj_df)

我收到错误ValueError：输入包含 NaN

所以我猜测我之前对 OneHotEncoder 如何处理缺失值的理解是错误的。有没有办法让我获得上述功能？我知道在编码之前估算缺失值可以解决这个问题，但我不愿意这样做，因为我正在处理医疗数据，并且担心估算可能会降低模型的预测准确性。

我找到了这个question https://stackoverflow.com/questions/58222008/nan-giving-valueerror-in-onehotencoder-in-scikit-learn这是类似的，但答案没有提供关于如何处理 NaN 值的足够详细的解决方案。

让我知道你的想法，谢谢。

您需要先估算缺失值。您可以定义一个Pipeline https://scikit-learn.org/stable/modules/generated/sklearn.pipeline.Pipeline.html使用插补步骤SimpleImputer https://scikit-learn.org/stable/modules/generated/sklearn.impute.SimpleImputer.html设置一个constant在 OneHot 编码之前为空字段输入新类别的策略：

from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import OneHotEncoder
from sklearn.impute import SimpleImputer
from sklearn.pipeline import Pipeline
import numpy as np

categorical_transformer = Pipeline(steps=[
    ('imputer', SimpleImputer(strategy='constant', fill_value='missing')),
    ('encoder', OneHotEncoder(handle_unknown='ignore'))])

preprocessor = ColumnTransformer(
    transformers=[
        ('cat', categorical_transformer, [0])
    ])

df = pd.DataFrame(['Male', 'Female', np.nan])
preprocessor.fit_transform(df)
array([[0., 1., 0.],
       [1., 0., 0.],
       [0., 0., 1.]])

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

使用 scikit-learn OneHotEncoder 时如何处理分类数据中的缺失值 (NaN)？的相关文章

如何调整 matplotlib 单选按钮的大小和纵横比？

我已经尝试了几个小时来使简单的单选按钮列表的大小和纵横比正确但没有成功首先导入模块 import matplotlib pyplot as plt from matplotlib widgets import RadioButtons
尝试从网页Python和BeautifulSoup获取编码

我试图从网页检索字符集这会一直改变目前我使用 beautifulSoup 来解析页面然后从标题中提取字符集这工作正常直到我遇到一个网站到目前为止我的代码以及与其他页面一起使用的代码是 def get encoding soup
指示电子邮件的类型

我有以下自动化程序它将电子邮件发送给我自己并添加了特定的链接 import win32com client as win32 import easygui import tkinter as to from tkinter import
如何使用 Python boto3 获取 redshift 中的列名称

我想使用 python boto3 获取 redshift 中的列名称创建Redshift集群将数据插入其中配置的机密管理器配置 SageMaker 笔记本打开Jupyter Notebook写入以下代码 import boto3
将 C++ 指针作为参数传递给 Cython 函数

cdef extern from Foo h cdef cppclass Bar pass cdef class PyClass cdef Bar bar def cinit self Bar b bar b 这总是会给我类似的东西 Can
使用 Python 3 动态插入到 sqlite

我想使用 sqlite 写入多个表但我不想提前手动指定查询有数十种可能的排列例如 def insert sqlite tablename data list global dbc dbc execute insert into tab
从 pyspark.sql 中的列表创建数据框

我完全陷入了有线的境地现在我有一个清单li li example data map lambda x get labeled prediction w x collect print li type li 输出就像 0 0 59 0 0
如何获取numpy.random.choice的索引？ - Python

是否可以修改 numpy random choice 函数以使其返回所选元素的索引基本上我想创建一个列表并随机选择元素而不进行替换 import numpy as np gt gt gt a 1 4 1 3 3 2 1 4 gt gt
将 pandas 剪切操作转换为常规字符串

我明白了 pandas cut 操作的输出 0 0 20 1 0 20 2 0 20 3 0 20 4 0 20 5 0 20 6 0 20 7 0 20 8 0 20 9 0 20 如何将 0 20 转换为 0 20 我正在这样做 str
OpenCV 跟踪器：模型未在函数 init 中初始化

在视频的第一帧我运行一个对象检测器它返回对象的边界框如下所示
Python“非规范化”unicode 组合字符

我正在寻找标准化 python 中的一些 unicode 文本我想知道是否有一种简单的方法可以在 python 中获得组合 unicode 字符的非规范化形式例如如果我有序列u o xaf i e latin small lette
如何在 Seaborn 中的热图轴上表达类

我使用 Seaborn 创建了一个非常简单的热图显示相似性方阵这是我使用的一行代码 sns heatmap sim mat linewidths 0 square True robust True sns plt show 这是我得到的
使用 suds SOAP 库进行 HTTP 身份验证的奇怪行为

我有一个正在运行的 python 程序它使用 suds 通过 SOAP 获取大量数据 Web服务是通过分页功能实现的这样我就可以抓取nnn每个 fetch 调用的行并获取下一个nnn与后续的电话如果我使用如下代码向 HTTP 服务器进
Discord.py 嵌入中禁用按钮/冻结按钮

I m trying to make a replica of this bot in which when I press any of the buttons below it shows a dropdown menu and you
Python守护进程：保持日志记录

我有一个将一些数据记录到磁盘的脚本 logging basicConfig filename davis debug log level logging DEBUG logging basicConfig filename davis er
寻找完美的正方形

我有这个Python代码 def sqrt x ans 0 if x gt 0 while ans ans lt x ans ans 1 if ans ans x print x is not a perfect square return
django jet 中的自定义徽标

我目前正在尝试对 django 管理面板的皮肤进行一些定制以使其更符合我们的品牌目前我们使用 django jet 来美化管理面板 django jet 可以自定义 css html 吗所有评论都说我应该更改一些 html 文件但我
如何绘制更大的边界框和仅裁剪边界框文本 Python Opencv

我正在使用 easyocr 来检测图像中的文本该方法给出输出边界框输入图像如下所示 Image 1 Image 2 使用下面的代码获得输出图像 But I want to draw a Single Bigger bounding bo
描述符“join”需要“unicode”对象，但收到“str”

代码改编自here http wiki geany org howtos convert camelcase from foo bar to Foo Bar def lower case underscore to camel case s
使用 paramiko 运行 Sudo 命令

我正在尝试执行sudo使用 python paramiko 在远程计算机上运行命令我尝试了这段代码 import paramiko ssh paramiko SSHClient ssh set missing host key polic

随机推荐

如何在 GAE 应用中最好地防止 CSRF 攻击？

那么防止 GAE 应用程序遭受 XSRF 攻击的最佳方法是什么想象一下以下情况任何人都可以查看用户的公共对象并且请求中使用 db Model id 来确定要显示哪个对象恶意用户现在拥有该 ID 恶意用户创建自己的对象并签出删除表单
如何将自定义字体嵌入到 Android 应用程序 (WebView)

我想将自定义字体嵌入到我的 Android 应用程序中我不使用 TextView 所以这样的教程this one https stackoverflow com questions 3424165 can i embed a custom
查找列表中两个（或多个）属性的最大值

这个问题已经以一种或另一种方式被问过但不是这样的我刚刚遇到一个非常基本的问题我正在寻找一个令人满意的解决方案我得到了一个具有两个整数属性的对象列表现在我想找到列表中所有对象的两个属性的最大值我想出了三个解决方案第一种方法 in
无序列表不会居中对齐

h1 似乎没有居中问题但是列表菜单栏不会对齐它似乎稍微缩进了请解释 My HTML h1 Welcome h1 ul li Home li li About Us li li Contact li ul My CSS h1 te
应如何配置 VSCode 以支持 Lerna Monorepo？

我有一个lerna https github com lerna lernamonorepo 包含很多包我正在努力实现以下目标确保 VSCode 提供从一个包到另一个包的正确导入建议基于包名称而不是相对路径确保我可以打开定义这
在 SQL Server 2005 中，是否有一种简单的方法可以将对象的权限从一个用户/角色“复制”到另一个用户/角色？

I asked 另一个问题 https stackoverflow com questions 370024 sql server 2005 public database role doesnt seem to apply关于角色和权限
如何使用Phantomjs的cookie API？

我正在尝试使用 phantomjs 的 exmaple 文件夹中的 rasterize js 将网页捕获为 PDF 我遇到的问题是网页需要用户登录然后我看到 Phantomjs 有一个 cookie 选项该网站由 Django 提供支持
iOS 上不显示应用程序跟踪透明度对话框

由于 ATT 请求未出现 Apple 审核人员刚刚拒绝了我的应用程序在 iOS 15 0 1 上审核时我们无法找到应用程序跟踪透明度权限请求我的代码如下所示 if available iOS 14 ATTrackingManager
警告：fgetcsv() 期望参数 1 为资源，C 中给出的布尔值：

我正在尝试获取 CSVfgetcsv 但我收到这样的错误警告 fgetcsv 期望参数 1 为资源布尔值在 C If I var dump handle 确保输出为 Bool False
在ios上下载并缓存整个网页

我需要下载整个网页并将其存储在应用程序的文档目录中并在用户下次访问时从缓存加载它无论我如何寻找我总是会得到ASI网页请求 http allseeing i com ASIHTTPRequest ASIWebPageRequest 尽管
在 Angular JS 中上传后显示图像？

我有个问题所以我发现你可以上传 HTML 格式的图像我使用了以下代码
什么是 DCI？它如何与 Rails 兼容？

最近与一位同事就 Rails 应用程序中的模型设计和编码的不同方法进行了一场辩论这让我想到了Rails 背景下的 DCI http andrzejonsoftware blogspot com 2011 02 dci and rails
js.拼接返回已删除的项目？

我在理解拼接方面遇到问题我希望获得帮助请检查 jsfiddle http jsfiddle net fantill TbpWf 1 http jsfiddle net fantill TbpWf 1 value c a b value
数据库恢复后 Service Broker 不工作

在服务器上设置一个可用的 Service Broker 我们正在迁移到新服务器但我似乎无法在新服务器上设置 Service Broker 已经完成了对我而言显而易见的事情例如在数据库上启用代理删除路由服务合同队列甚至消息类型
你什么时候会使用不同的 git 合并策略？

从 git merge 的手册页中您可以使用多种合并策略 resolve 这只能使用 3 路合并算法解析两个头即当前分支和您从中提取的另一个分支它试图仔细检测交叉合并的歧义并且通常被认为是安全和快速的递归的这只能使用 3 路合并
Swift 中编译时关键路径检查

当我在 Objective C 中实现 NSCoding 协议时我想使用NSStringFromSelector selector name 获取属性的关键路径如下所示 void encodeWithCoder NSCoder aCod
Serviceaccount 没有 bigquery.jobs.create 权限

授予服务帐户的权限是所有者和 bigquery admin bigQuery new BigQueryClient projectId gt project xxx query SELECT FROM project xxxx anal
如何在 Silverlight/WP7 中实现实时绘图？

我正在尝试在我的 WP7 应用程序中实现数据的实时绘图有人能指出我如何去做这件事的正确方向吗澄清一下我所说的实时是指每秒更新的图表提前致谢图表控制来自VisiBlox http www visiblox com 支持WP7 免费
在Python/OpenCV中，有没有一种方法可以快速滚动视频帧，允许用户选择要处理的开始帧和结束帧？

在准备处理视频时我希望用户能够选择视频中要处理的第一帧和最后一帧轨迹栏似乎是执行此操作的有用工具但我可以使用它来读取和显示视频中的特定帧吗通常我会逐帧读取视频并使用 while 循环对其运行处理算法 cap cv2 VideoC
使用 scikit-learn OneHotEncoder 时如何处理分类数据中的缺失值 (NaN)？

我最近开始学习 python 以便使用机器学习方法为研究项目开发预测模型我有一个由数值数据和分类数据组成的大型数据集数据集有很多缺失值我目前正在尝试使用 OneHotEncoder 对分类特征进行编码当我读到 OneHotEncod

使用 scikit-learn OneHotEncoder 时如何处理分类数据中的缺失值 (NaN)？

使用 scikit-learn OneHotEncoder 时如何处理分类数据中的缺失值 (NaN)？ 的相关文章

随机推荐

热门标签

使用 scikit-learn OneHotEncoder 时如何处理分类数据中的缺失值 (NaN)？的相关文章