sklearn.impute.SimpleImputer 数据填充

2023-11-14

数据缺失值补全方法sklearn.impute.SimpleImputer

imp=SimpleImputer(missing_values=np.nan,strategy=’mean’)

创建该类的对象，missing_values,也就是缺失值是什么，一般情况下缺失值当然就是空值啦，也就是np.nan

strategy:也就是你采取什么样的策略去填充空值，总共有4种选择。分别是mean,median, most_frequent,以及constant，这是对于每一列来说的，如果是mean，则该列则由该列的均值填充。而median,则是中位数，most_frequent则是众数。需要注意的是，如果是constant,则可以将空值填充为自定义的值，这就要涉及到后面一个参数了，也就是fill_value。如果strategy=‘constant’,则填充fill_value的值。
imp.fit(df)
#df为read_csv和table读取的文件返回的变量，该方法提供中位数，均值等数据补全方法，采用什么方法补全取决于创建对象时参数strategy的参数值。如mean为均值填充
df = imp.transform(df)
#开始填充（按照每一列的内容，根据前面确定的填充方案填充该列缺少的数据）

例如：下面有的是自定义的数据填充

from sklearn.impute import SimpleImputer
import pandas as pd
import numpy as np

file = '班级作业提交情况1.csv'
df = pd.read_table(file, delimiter=',',header=None) 
imp = SimpleImputer(missing_values=np.nan, strategy='constant',fill_value='1') 
imp.fit(df)
df = imp.transform(df)
print(type(df))
print(df)

读取的文件（需要填充数据的文件）
结果为
在这里插入图片描述
通过索引查出谁没交作业

from sklearn.impute import SimpleImputer
import pandas as pd
import numpy as np

file = '班级作业提交情况1.csv'
df = pd.read_table(file, delimiter=',',header=None) 
imp = SimpleImputer(missing_values=np.nan, strategy='constant',fill_value='1') 
imp.fit(df)
df = imp.transform(df)
x = (df[:,3] == "0")
print("Second_work没交",df[x,0])
x = (df[:,4] == "0")
print("Fouth_work没交",df[x,0])

结果为
在这里插入图片描述

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

机器学习

数据分析

sklearn.impute.SimpleImputer 数据填充的相关文章

Django：NoReverseMatch at /'myapp'不是注册的命名空间

我在模板渲染期间遇到此错误我想做的是允许用户上传 csv 然后将数据处理到模型中第 109 行出错 myapp 不是已注册的命名空间这是我的第 109 行代码
从networkx中的文件中读取具有pos属性的节点

我是 Networkx 的新手我有一个包含以下格式的节点位置的文件 0 23 23 12 23 where 0是一个节点 23 23 and 12 23分别是X和Y坐标有谁知道如何读取节点pos属性使用类似的函数read edgeli
从 java 代码运行 Python 脚本

这是我第一次在java中尝试python 我正在尝试从我的代码执行 python 脚本如下所示 Process process Runtime getRuntime exec python C Users username Desktop
Django CollectStatic 启动大文件上传时管道损坏

我正在尝试使用collectstatic将静态文件上传到我的S3存储桶但我收到一个700k javascript文件的管道损坏错误这就是错误 Copying Users wedonia work asociados server aso
为什么Flask后台线程获取错误的数据库信息？

为了将实时数据库信息推送到客户端我在服务器端使用flask socketio 通过使用websocket将所有实时数据库信息推送到客户端我的视图文件有一个片段 from models import Host from flask soc
并行执行按位运算的代码

我有这段代码通过将该 AU 矩阵的每个字节 8 个元素打包到 A 中来减少内存消耗从而使 100k 200k 矩阵占用更少的空间正如您所期望的这段代码需要永远运行我也计划将行数增加到 200k 我正在一个非常强大的实例 CPU 和
如果每个元组中的第二项重复，如何从元组列表中删除元素？

如果每个元组中的第二项重复如何从元组列表中删除元素例如我有一个按第一个元素排序的列表如下所示 alist 0 7897897 this is a foo bar sentence 0 653234 this is a foo bar
映射 2 个数据帧并替换目标数据帧中匹配值的标头

我有一个数据框 df1 SAP Name SAP Class SAP Sec Avi 5 C Rison 6 A Slesh 7 B San 8 C Sud 7 B df2 Name Fi Class Avi 5 Rison 6 Slesh
如何在 dash/plotly 中使用 iframe？（Python/HTML）

我正在创建一个仪表板我想使用这个交互式地图网站链接 https www ons gov uk peoplepopulationandcommunity healthandsocialcare causesofdeath articles
使用 pytherejs 嵌入小部件：错误的视角和相机观察

我在用pythreejs可视化一些 3D 模型在 Jupyter 笔记本上可视化模型时一切都按预期进行但是当尝试将小部件嵌入 HTML 文档时我面临两个问题看起来相机在加载时正在查看 0 0 0 而不是预期的那样一旦您与小部件交
为什么我的字符串中出现不需要的换行符？

这应该很简单这很愚蠢但我无法让它发挥作用我有一个在读取文件时定义的标头 if gene env in line or gene HIV2gp7 in line header line 现在这个标题看起来像 gt lcl NC 0018
Python Jinja2 调用宏会导致（不需要的）换行符

我的 JINJA2 模板如下所示 macro print if john name if name John Hi John endif endmacro Hello World print if john Foo print if joh
Python 中没有名称属性的表单提交

背景在Python中使用urllib和urllib2 您可以进行表单提交您首先创建一个字典 formdictionary search stackoverflow 然后使用 urllib 的 urlencode 方法来转换这个字典 pa
如何在 Google App Engine (Python) 中定义配置变量/常量？

我是 python GAE 的新手想知道如何快速定义和使用全局设置变量所以说你 git 克隆我的 GAE 应用程序然后打开config yaml 添加更改设置应用程序就全部连接起来如下所示 config yaml or whate
python 函数中的对象不可迭代错误

我有一个简单的功能如下 comdList range 0 27 for t in comdList print t 但是它返回一个 in object not iterable 错误在函数之外它工作正常这是怎么回事尝试这个 for t
识别文本中的多个类别和相关情感

如果您有一个文本语料库如何识别所有类别来自预定义类别列表以及与之相关的情绪正面负面写作我将在 Python 中执行此操作但现阶段我不一定要寻找特定于语言的解决方案让我们用一个例子来看看这个问题试图澄清我的问题如果我有一整
Python - 从一定范围内随机采样，同时避免某些值

我一直在阅读有关random sample 函数在random模块但没有看到任何可以解决我的问题的东西我知道使用random sample range 1 100 5 会给我来自人群的 5 个独特样本我想得到一个随机数range
导入错误：无法导入名称

我有一个名为 google translate python 的库 https github com terryyin google translate python https github com terryyin google tra
print() 函数的有趣/奇怪的机制

我正在学习Python 我目前正在学习如何定义自己的函数并且在尝试理解返回值和打印它之间的区别时遇到了一些困难我读到的关于这个主题的描述对我来说不太清楚所以我开始自己尝试我想我现在已经明白了如果我没记错的话区别在于你可以传递 a
Mac 无法安装 Tensorflow

我检查了我的 pip3 和 python3 版本 tensorflow MacBook Pro de Hector 2 tensorflow hectoresteban pip3 V pip 10 0 1 from Users hector

随机推荐

JavaObject类初识

Java所有的类都继承Object类 Object类中的方法 Object类中的方法一般都需要重写 Sting toString 默认的 toString 返回的是对象的堆内存地址重写 toString一般用于输出对象的属性 class
csdn测试

测试
EasyPR编译指南

1 下载源码 https github com liuruoze EasyPR Download ZIP或者git https github com liuruoze EasyPR git 将代码解压到硬盘目录下例如F 车牌识别 Easy
Kotlin的一点学习资源

本来想写一点Kotlin的文章的后来看了一下它的中文文档质量很不错我再写就纯属浪费时间了所以这里干脆整理一点Kotlin的学习资源吧文档类 Kotlin官方网站 Kotlin官方文档 Kotlin中文网站 Kotlin中文文档 K
达芬奇系列教程2-简单剪辑及一些快捷键

达芬奇系列教程2 简单剪辑及一些快捷键前言一初步设置二剪辑 1 步骤 2 剪辑面板功能键 3 剪辑 4 快编面板 5 字幕三快捷键总结前言以下内容为 B站影视飓风达芬奇系列教程文字版笔记一初步设置 1 创建面板
【无标题】50hz IIR 滤波的实现

使用fdatool Fs 依据采样率 Apass 选择衰减率如果选为30db 即为衰减1000倍并不是衰减率越高越好而是够用就好选择完毕后按Design Filter 即可生成需要的IIR 50hz陷波器在界面中也可以查看幅频特
python学习随笔

打开文件管理器窗口方式方式一 import subprocess 执行指令 explorer是windows文件管理器的指令目录 subprocess Popen r explorer C Users dell Desktop hmui
任意文件上传

文章目录渗透测试漏洞原理任意文件上传 1 任意文件上传概述 1 1 漏洞成因 1 2 漏洞原理 1 3 漏洞危害 1 4 漏洞的利用方法 1 5 漏洞的验证 2 WebShell解析 2 1 Shell 2 1 1 命令解释器 2 2
面试大闯关：自我介绍放大招

It s the most feared question during any job interview Can you tell me about yourself Before I share a list of 10 memora
掌握Python的X篇_9_关系运算符与逻辑运算符

文章目录 1 True与False关键字 2 关系运算符 3 逻辑运算符 1 True与False关键字 Python中有True和False关键字对应了生活中的真假 2 关系运算符 python中有以下的关系运算符用于比较两个操作
计算机专业毕业设计题目大全——各种类型系统设计大全

计算机专业毕业设计题目大全一 ASP类计算机专业毕业设计题目 1 网络留言薄 2 客户管理系统 3 多媒体积件管理库的开发与应用 4 基于WEB的多媒体素材管理库的开发与应用 5 网络教学软件中的教学设计与应用 6 小型教育网站的开发与建
[na]完全理解icmp协议

1 ICMP出现的原因在IP通信中经常有数据包到达不了对方的情况原因是在通信途中的某处的一个路由器由于不能处理所有的数据包就将数据包一个一个丢弃了或者虽然到达了对方但是由于搞错了端口号服务器软件可能不能接受它这时在错误
AndroidStudio Connection Reset 问题

解决方案
1012.数字分类- PAT乙级真题

给定一系列正整数请按要求对数字进行分类并输出以下 5 个数字 A 1 能被 5 整除的数字中所有偶数的和 A 2 将被 5 除后余 1 的数字按给出顺序进行交错求和 A3 被 5 除后余 2 的数字的个数 A 4 被 5 除后余 3 的
mpVue 微信小程序用户授权及wx.getUserProfile代替wx.getUserInfo获取用户信息及判断用户是否已经授权；不弹出微信授权窗口；只能使用头像、昵称填写能力

一前言 2021年4月15日整改为优化用户的使用体验平台将进行以下调整 1 2021年2月23日起若小程序已在微信开放平台进行绑定则通过wx login接口获取的登录凭证可直接换取unionID 2 2021年4月13日后发布的
select框既可以手输入也可以选择
typescript封装axios

import axios AxiosInstance AxiosResponse AxiosError from axios 定义返回数据类型 interface ResponseData code number message strin
vs code python_VSCode：无法识别术语“ python”……但是py可...

我刚刚在VS Code上安装了python 但无法使用python命令运行任何python代码 python命令似乎默认情况下使用python命令但无法识别它当我右键单击并选择运行代码时它会抱怨无法将 python 识别为内部
树莓派 Raspberry 4B 刷机、上网、录音外设、文件传输、电脑投屏问题汇总

硬件重要一定要用正版品牌方的的sd卡比如闪迪读写速率至少要class10 否则开启启动很慢界面很卡上网连接开机连接wifi后 wifi名字和密码会被写入配置文件中开机密码默认开机密码 raspberry 可修改也可去掉开
sklearn.impute.SimpleImputer 数据填充

数据缺失值补全方法sklearn impute SimpleImputer imp SimpleImputer missing values np nan strategy mean 创建该类的对象 missing values 也就是缺失

热门标签