缺失值填充2——python 热卡填充(Hot deck imputation)、冷卡填充(Cold deck imputation)

2023-11-13

基本概念

热卡填充:在完整数据中找到一个与它最相似的对象,用最相似的值填充当前值

冷卡填充:通过其他途径找到能填充缺失部分的值

热卡填充其实就是使用KNN去预测的一种特殊形式,KNN是参考K个,而热卡填充是参考最近的1个,所以热卡填充可以用KNN做,关键代码是:

from sklearn.impute import KNNImputer

hot_deck_imputer = KNNImputer(n_neighbors=2, weights="uniform")  # 虽然看着是用KNN,但是参数固定:n_neighbors=2
dataframe = hot_deck_imputer.fit_transform(dataframe)

示例代码

import pandas as pd
import numpy as np


def hot_deck_imputation(dataframe: pd.DataFrame):
    from sklearn.impute import KNNImputer
    hot_deck_imputer = KNNImputer(n_neighbors=2, weights="uniform")  # 虽然看着是用KNN,但是参数固定:n_neighbors=2
    new_df = hot_deck_imputer.fit_transform(dataframe)
    return new_df


def get_dataset():
    """得到数据
    :return data_x:有缺失值的数据
    :return true_value:缺失数据的原始真实值
    :return data_y:原问题中待预测的label
    """
    import copy
    from sklearn.datasets import make_classification
    data_x, data_y = make_classification(n_samples=100, n_classes=4, n_features=6, n_informative=4,
                                         random_state=0)  # 6个特征
    data_x = pd.DataFrame(data_x)
    data_x.columns = ['x1', 'x2', 'x3', 'x4', 'x5', 'miss_line']
    true_data = copy.deepcopy(data_x)
    # 在miss_line这一列删除20%的数据
    drop_index = data_x.sample(frac=0.2).index
    data_x.loc[drop_index, "miss_line"] = np.nan
    true_value = true_data.loc[drop_index, 'miss_line']  # 空值的真实值
    return data_x, true_value, data_y


if __name__ == '__main__':
    value_x, true_value_x, value_y = get_dataset()
    fill_df = hot_deck_imputation(value_x)
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

缺失值填充2——python 热卡填充(Hot deck imputation)、冷卡填充(Cold deck imputation) 的相关文章

随机推荐

  • ORA-01427问题的分析和解决

    前几天开发的同事反馈一个问题 说前台系统报出了ORA错误 希望我们能看看是什么原因 java sql SQLException ORA 01427 single row subquery returns more than one row
  • /usr/bin/ld cannot find -lGL

    ubuntu 16 04虚拟机 装的Qt 5 10 随便写了个带UI的Demo 然后报错如下 解决如下 很多Linux发行版本 Qt安装完成后如果直接编译或者运行项目 会出现 cannot find lGL 错误 这是因为Qt找不到Open
  • 【matlab 斩波电路仿真】

    斩波电路仿真 要求 斩波电路原理 基本斩波电路 降压斩波电路搭建 结果分析 要求 斩波电路仿真 斩波电路原理 斩波电路的功能是将直流电变为另一固定电压或者可调电压的直流电 包括直接直流变流电路和简介直流变流电路 其中 直流变流电路也称为斩波
  • 某在线学习平台《数据挖掘》第八章课后习题

    此文章是本人结合课程内容和网上资料整理 难免有误差 仅供参考 1 下面哪种距离度量方法为欧几里得距离 2 以下哪个算法将两个簇的邻近度定义为不同簇的所有点对的平均逐对邻近度 它是一种凝聚层次聚类技术 AMIN 单链 BMAX 全链 C 组平
  • HK32F030MF4P6 SWD管脚功能复用GPIO

    由于电暖控制器项目上管脚不够 需要将SWD管脚复用 使用网上购买的JLINK 下载和串口调试特别方便 应用场景 往往GPIO管脚不够使用 需要将SWD下载管脚复用GPIO功能 需要用到以下设置 下载器需要接上RESET管脚 TSSOP20
  • (四)索引与数据完整性

    一 索引 1 索引的作用 快速存取数据 既可以改善数据库性能 又可以保证列值的唯一性 实现表与表之间的参照完整性 在使用ORDER BY GROUP BY子句进行数据检索时 利用索引可以减少排序和分组的时间 2 索引的分类 索引按照存储方法
  • PyQt5探索-0 用Pycharm配置PyQt5环境

    感觉是时候学习一下PyQt了 决定直接从PyQt5开始 用Pycharm做开发环境 因为之前用的Eric实在感觉不爽 今天先从配置环境开始 先安装好Pycharm Qt 安装Pycharm插件sip PyQt5 pyqt5 tools si
  • 【计算机视觉】论文单词理解—bells and whistles

    一 问题来源 最后在阅读论文的时候 遇到了一个单词 不是很理解 这个单词是bells and whistles 二 单词的理解 bells and whistles 它的含义并不是指 铃铛和口哨 其真正的含义是指 bells and whi
  • Mac 中的sublime text3 如何安装插件

    Mac 中的sublime text3 如何安装插件 相信大家在Windows系统中试用sublime text 的体验非常不错 我也是在Windows系统中使用了两年的时间 才转战Mac系统的 但是说实话 Mac系统好多东西都是十分不习惯
  • 时间序列学习(6)——LSTM中Layer的使用

    文章目录 1 复习一下 nn RNN 的参数 2 LSTM的 init 函数 3 LSTM forward 4 动手写一个简单的lstm层 1 复习一下 nn RNN 的参数 参数介绍 1 input size The number of
  • 梯度下降法(BGD,SGD,MSGD)python+numpy具体实现

    梯度下降是一阶迭代优化算法 为了使用梯度下降找到函数的局部最小值 一个步骤与当前位置的函数的梯度 或近似梯度 的负值成正比 如果相反 一个步骤与梯度的正数成比例 则接近该函数的局部最大值 该程序随后被称为梯度上升 梯度下降也被称为最陡峭的下
  • Proteus8.6软件安装教程

    关注公众号 免费获取资料 简介 是一款嵌入式系统仿真开发软件 同时也是英国Lab Center Electronics公司研发推出的最新的版本 该软件经实现了从原理图设计 单片机编程 系统仿真到PCB设计 真正实现了从概念到产品的完整设计
  • LeetCode338-比特位计数

    开学感觉已经是遥遥无期了 我的论文啊 我的工作啊 我该如何抉择 题目描述 给定一个非负整数 num 对于 0 i num 范围中的每个数字 i 计算其二进制数中的 1 的数目并将它们作为数组返回 示例 1 输入 2 输出 0 1 1 示例
  • deeplin显示安装空间不够,安装Deepin V20需要64GB以上磁盘空间,本文教你减小的方法...

    在安装Deepin V20操作系统时会有一个提示 说至少要64GB磁盘空间 建议在128GB以上 如果你设置少于64GB空间就不能正常安装下去 这时有方法可以解决的 你可以减小安装的磁盘空间 让32G的U盘也能够用上Deepin V20系统
  • 软件设计师上午题——第八章 UML

    软件设计师备考 UML 一 事物 1 UML 2 UML事物 1 结构事务 静态事务 2 行为事务 动态事务 3 分组事务 组织部分 4 注释事务 解释部分 二 关系 1 依赖关系 2 关联 聚合 组合关系 3 泛化关系 4 实现关系 5
  • 基于教学优化算法求解TSP问题(附Matlab代码)

    基于教学优化算法求解TSP问题 附Matlab代码 旅行商问题 Traveling Salesman Problem 简称TSP 是一个经典的组合优化问题 其目标是找到一条最短路径 使得一个旅行商能够访问一系列城市并返回起始城市 同时每个城
  • wordpress发表文章之后查看显示404

    刚刚写了一篇LAMP wordpress搭建博客的 发表成功之后想看一下效果 结果显示404 OMG 难道没成功 在后台所有文章里显示有 但是点击却显示404 404表示为指向的链接不存在 于是发现自己访问的地址为http www zhao
  • Python入门(一)——环境的搭建,创建第一个Python项目:Hello World

    Python入门 一 环境的搭建 创建第一个Python项目 Hello World 一 安装环境 安装就很简单了 我们进入官网Python 然后下载对应的版本就好了 如果你是Liunx的话 可以直接运行python 关于环境的配置 大家百
  • Uncaught SyntaxError: The requested module ‘/node_modules/.vite/...‘ does not provide an export ...

    项目启动正常 但是页面不显示且打印报错 Uncaught SyntaxError The requested module node modules vite deps vue js v 84e66e8d does not provide
  • 缺失值填充2——python 热卡填充(Hot deck imputation)、冷卡填充(Cold deck imputation)

    基本概念 热卡填充 在完整数据中找到一个与它最相似的对象 用最相似的值填充当前值 冷卡填充 通过其他途径找到能填充缺失部分的值 热卡填充其实就是使用KNN去预测的一种特殊形式 KNN是参考K个 而热卡填充是参考最近的1个 所以热卡填充可以用