numpy平均值插补步骤及详细说明

2023-11-05


利用 numpy对数据进行插补是一个非常常见的方法,代码也很多。但是网上的代码一般没有很详细的解释,不利于初学者学习。本帖就是在源代码的基础上添加了相关注释,便于初学者理解。

1.导入numpy工具并读取数据

在文件的同级目录下,建一个名为textdata.txt的数据,然后导入。为了进行示范,数据如下所示。

# numpy 采用平均值法插补缺失数据
import numpy as np

# numpy读取
"""
数据如下所示
A,b,c,d,e
1,9,20,90,100
2,3,15,m,88
3,6,18,n,100
"""
data = np.genfromtxt("textdata.txt", delimiter=",")

2.定义平均值插补函数

1.首先确定数据的列数,然后对每一列开始循环;
2.计算缺失值Nan值个数,如果Nan个数为0,表示没有Nan值,不需要替换,执行下一个列循环;
3.如果有Nan值(Nan值个数大于零),则对该列非Nan的值进行求和,并求出非Nan值的平均值;
4.将计算出的平均值赋值给该列的Nan值;
5.最后将插补后的新列赋值给原始列,完成插补值替换。

# 定义平均值插补函数
def fill_nan_by_column_mean(t):
    for i in range(t.shape[1]):    # 循环01234
        # data.shape表示矩阵的行列维度
        # data.shape[0]表示行维度
        # data.shape[1]表示列维度
        
        # 计算缺失值nan的个数
        nan_num = np.count_nonzero(t[:,i] != t[:,i])
        # np.count_nonzero统计非0值的数量,就是和,True算1
        # data[:,i],i表示列号,表示在i列从头到尾的意思
        # nan不能比较大小,所以nan != nan是True,就表示一个空值
        
        if nan_num > 0:    # 表示有nan
            now_col = t[:,i]
            # 对列求和
            now_col_not_nan = now_col[np.isnan(now_col) == False].sum()
            # np.isnan(now_col)找出空值nan,是nan返回True,不是nan返回False
            # now_col[np.isnan(now_col) == False].sum()表示对所有非nan求和
            
            # 平均值=和/个数
            now_col_mean = now_col_not_nan / (t.shape[0] - nan_num)
            # shape[0]表示行数
            # nan_num表示nan个数
            # t.shape[0] - nan_num 表示非nan的个数
            
            # 赋值给now_col
            now_col[np.isnan(now_col)] = now_col_mean
            # 对nan值进行赋值
            
            # 赋值给t,即更新t的当前列
            t[:,i] = now_col
    return t

3.调用平均值插补函数

# 调用平均值插补函数
fill_nan_by_column_mean(data)

4.插补结果

通过以上步骤,可以得出以下插补结果:

array([[  2.        ,   6.        ,  17.66666667,  90.        ,96.        ],
       [  1.        ,   9.        ,  20.        ,  90.        ,100.        ],
       [  2.        ,   3.        ,  15.        ,  90.        ,88.        ],
       [  3.        ,   6.        ,  18.        ,  90.        ,100.        ]])
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

numpy平均值插补步骤及详细说明 的相关文章

  • 为什么从 Pandas 1.0 中删除了日期时间?

    我在 pandas 中处理大量数据分析并每天使用 pandas datetime 最近我收到警告 FutureWarning pandas datetime 类已弃用 并将在未来版本中从 pandas 中删除 改为从 datetime 模块
  • Django 的内联管理:一个“预填充”字段

    我正在开发我的第一个 Django 项目 我希望用户能够在管理中创建自定义表单 并向其中添加字段当他或她需要它们时 为此 我在我的项目中添加了一个可重用的应用程序 可在 github 上找到 https github com stephen
  • 与区域指示符字符类匹配的 python 正则表达式

    我在 Mac 上使用 python 2 7 10 表情符号中的标志由一对表示区域指示符号 https en wikipedia org wiki Regional Indicator Symbol 我想编写一个 python 正则表达式来在
  • 如何使用 opencv.omnidir 模块对鱼眼图像进行去扭曲

    我正在尝试使用全向模块 http docs opencv org trunk db dd2 namespacecv 1 1omnidir html用于对鱼眼图像进行扭曲处理Python 我正在尝试适应这一点C 教程 http docs op
  • Pandas/Google BigQuery:架构不匹配导致上传失败

    我的谷歌表中的架构如下所示 price datetime DATETIME symbol STRING bid open FLOAT bid high FLOAT bid low FLOAT bid close FLOAT ask open
  • Pandas 日期时间格式

    是否可以用零后缀表示 pd to datetime 似乎零被删除了 print pd to datetime 2000 07 26 14 21 00 00000 format Y m d H M S f 结果是 2000 07 26 14
  • YOLOv8获取预测边界框

    我想将 OpenCV 与 YOLOv8 集成ultralytics 所以我想从模型预测中获取边界框坐标 我该怎么做呢 from ultralytics import YOLO import cv2 model YOLO yolov8n pt
  • 如何将张量流模型部署到azure ml工作台

    我在用Azure ML Workbench执行二元分类 到目前为止 一切正常 我有很好的准确性 我想将模型部署为用于推理的 Web 服务 我真的不知道从哪里开始 azure 提供了这个doc https learn microsoft co
  • Python beautifulsoup 仅限 1 级文本

    我看过其他 beautifulsoup 得到相同级别类型的问题 看来我的有点不同 这是网站 我正试图拿到右边那张桌子 请注意表的第一行如何展开为该数据的详细细分 我不想要那个数据 我只想要最顶层的数据 您还可以看到其他行也可以展开 但在本例
  • 如何通过 TLS 1.2 运行 django runserver

    我正在本地 Mac OS X 机器上测试 Stripe 订单 我正在实现这段代码 stripe api key settings STRIPE SECRET order stripe Order create currency usd em
  • Numpy - 根据表示一维的坐标向量的条件替换数组中的值

    我有一个data多维数组 最后一个是距离 另一方面 我有距离向量r 例如 Data np ones 20 30 100 r np linspace 10 50 100 最后 我还有一个临界距离值列表 称为r0 使得 r0 shape Dat
  • javascript 是否有等效的 __repr__ ?

    我最接近Python的东西repr这是 function User name password this name name this password password User prototype toString function r
  • pip 列出活动 virtualenv 中的全局包

    将 pip 从 1 4 x 升级到 1 5 后pip freeze输出我的全局安装 系统 软件包的列表 而不是我的 virtualenv 中安装的软件包的列表 我尝试再次降级到 1 4 但这并不能解决我的问题 这有点类似于这个问题 http
  • Python3 在 DirectX 游戏中移动鼠标

    我正在尝试构建一个在 DirectX 游戏中执行一些操作的脚本 除了移动鼠标之外 我一切都正常 是否有任何可用的模块可以移动鼠标 适用于 Windows python 3 Thanks I used pynput https pypi or
  • 不同编程语言中的浮点数学

    我知道浮点数学充其量可能是丑陋的 但我想知道是否有人可以解释以下怪癖 在大多数编程语言中 我测试了 0 4 到 0 2 的加法会产生轻微的错误 而 0 4 0 1 0 1 则不会产生错误 两者计算不平等的原因是什么 在各自的编程语言中可以采
  • 为什么 Pickle 协议 4 中的 Pickle 文件是协议 3 中的两倍,而速度却没有任何提升?

    我正在测试 Python 3 4 我注意到 pickle 模块有一个新协议 因此 我对 2 个协议进行了基准测试 def test1 pickle3 open pickle3 wb for i in range 1000000 pickle
  • 如何在 pygtk 中创建新信号

    我创建了一个 python 对象 但我想在它上面发送信号 我让它继承自 gobject GObject 但似乎没有任何方法可以在我的对象上创建新信号 您还可以在类定义中定义信号 class MyGObjectClass gobject GO
  • python import inside函数隐藏现有变量

    我在我正在处理的多子模块项目中遇到了一个奇怪的 UnboundLocalError 分配之前引用的局部变量 问题 并将其精简为这个片段 使用标准库中的日志记录模块 import logging def foo logging info fo
  • Python ImportError:无法导入名称 __init__.py

    我收到此错误 ImportError cannot import name life table from cdc life tables C Users tony OneDrive Documents Retirement retirem
  • 更改 Tk 标签小部件中单个单词的颜色

    我想更改 Tkinter 标签小部件中单个单词的字体颜色 我知道可以使用文本小部件来实现与我想要完成的类似的事情 例如使单词 YELLOW 显示为黄色 self text tag config tag yel fg clr yellow s

随机推荐

  • atd服务报错 Failed with result ‘exit-code‘

    有需求需要测试下 at 单次计划任务 系统环境 isoftserveros v5 1 oe1 aarch64 系统默认没有at软件包 使用本地yum源安装 yum y install at 安装完后不小心执行了下atd atd 因为at计划
  • 嵌入式设计中对于只有两种状态的变量存储设计,如何高效的对循迹小车进行偏差量化

    前言 1 在嵌入式程序设计中 我们常常会要对各类传感器进行数据存储 大多时候的传感器 例如红外光传感器 返回的数据要么是0 要么是1 因此 只需要一bit就能够存储 而很多人却常常使用char型数组存储 这样真正申请到的内存只使用了八分之一
  • Java基础-内部类

    注意 在成员内部类中访问所在外部类对象 格式 外部类名 this
  • ARP代理

    一个物理网络子网中的源主机向另一个物理网络子网中的目的主机发送ARP Request 和源主机直连的网关用自己接口的mac地址代替目的主机回复 arp reply 这个过程成为arp代理 arp代理的几种方式以及每种方式针对的问题如下图所示
  • 2023届电子设计大赛E题(控制类)

    先上视频 1 首先我们来看看题目 题目还是比较简单明白的 基础题只需要用到一个云台去做这个题目 发挥题需要用到两个云台去解决 首先前几题除了写死没有更好的办法了 我们直接来说一下发挥题怎么做吧 怎么去解决这个问题吧 做发挥题的时候我是遇到了
  • 西电B测——基于simulink的2PSK和2DPSK调制解调系统实现

    这是学校的B级测试实验 仅供学习交流使用 误码率曲线绘制需要用到bertool工具 bertool工具教程 通信专业Simulink 画误码率曲线 使用bertool工具 Enpiyahh的博客 CSDN博客 simulink误码率曲线 报
  • MySQL中对于事务完整的超详细介绍

    MySQL事务详细理解 一 事务基本介绍 1 什么是事务 2 为什么出现事务 3 事务四大特性 原子性 一致性 隔离性 持久性 4 事务的隔离级别 四种级别 不同隔离级别所具有的问题 二 操作演示 1 自动提交和手动提交 2 回滚操作 3
  • 组和OU介绍

    组和OU介绍 https daiker gitbook io windows protocol ldap pian 9 0x00 前言 这篇文章主要介绍AD里面的组和组织单位 OU 0x01 一些LDAP高级搜索语法 1 LDAP 查找中的
  • argparse.ArgumentParser()用法解析

    此模块有中文文档 建议看到此文的读者链接到中文文档查看 本文只是自己学习 个人理解的重点总结 argparse模块 官方文档 argparse是一个Python模块 命令行选项 参数和子命令解析器 argparse 模块可以让人轻松编写用户
  • unable to access android sdk add-on list解决方案

    unable to access android sdk add on list解决方案 问题 原因 解决方案 1 配置Proxy 2 跳过检测 在Android Studio的安装目录下 找到 bin idea properties 在尾
  • List集合遍历过程中修改元素,这个坑踩一次就够了

    简介 java系列技术分享 持续更新中 初衷 一起学习 一起进步 坚持不懈 如果文章内容有误与您的想法不一致 欢迎大家在评论区指正 希望这篇文章对你有所帮助 欢迎点赞 收藏 留言 更多文章请点击 文章目录 问题描述 一 将List集合中的每
  • 华为OD机试 - 找单词(Python)

    题目描述 给一个字符串和一个二维字符数组 如果该字符串存在于该数组中 则按字符串的字符顺序输出字符串每个字符所在单元格的位置下标字符串 如果找不到返回字符串 N 1 需要按照字符串的字符组成顺序搜索 且搜索到的位置必须是相邻单元格 其中 相
  • centos7或8安装google-authenticator身份令牌

    1 系统基础环境 说明 使用云服务器安装与本地系统两种方式安装google authenticator 基于云服务器centos7 root linux tes lsb release a LSB Version core 4 1 amd6
  • 什么是HTML语义化标签?常见HTML语义化标签大全,以及不同标签比较

    一 什么是HTML语义化标签 语义化的标签 旨在让标签有自己的含义 p 一行文字 p span 一行文字 span 如上代码 p 标签与 span 标签都区别之一就是 p 标签的含义是 段落 而 span 标签责没有独特的含义 二 语义化标
  • SQL:基础概念 + 在线数据库

    文章目录 1 基础 2 数据库基础概念整理 2 1 ER图 2 2 数据库管理工具 2 3 在线数据库 1 基础 推荐阅读 https www w3school com cn sql sql orderby asp https www ru
  • 优化器算法总结(BGD、SGD、MBGD、Momentum、NAG、Adagrad 未总结完)

    参考的两篇博文 1 优化算法总结 深度学习 https blog csdn net fengzhongluoleidehua article details 81104051 2 深度学习 优化器算法Optimizer详解 BGD SGD
  • Spring-动态代理深入了解

    前言 本篇的Spring AOP系类文章第二篇扩展了Spring 动态代理然后开发了简易的AOP类 个人主页 尘觉主页 个人简介 大家好 我是尘觉 希望我的文章可以帮助到大家 您的满意是我的动力 在csdn获奖荣誉 csdn城市之星2名 J
  • JVM内存溢出和内存泄漏的区别

    1 概念的区分 1 1 内存泄露 memory leak 程序运行结束后 没有释放 所占用的内存空间 一次内存泄漏 似乎不会有大的影响 但内存泄漏 不断累积 最终可用内存会变得越来越少 比如说 总内存大小是100 MB 有40MB的内存一直
  • 一个无源晶振和外围电路(如图)组成的振荡电路,就能发挥类似有源晶振的功能吗?

    一个无源晶振和外围电路 如图 组成的振荡电路 就能发挥类似有源晶振的功能吗 2012 06 21 22 01 曾佳乐曾佳乐曾 分类 工程技术科学 浏览1232次 从output端输出的电压只有正半周还是正半周 负半周都有 这个电路通电后 能
  • numpy平均值插补步骤及详细说明

    numpy平均值插补步骤及详细说明 1 导入numpy工具并读取数据 2 定义平均值插补函数 3 调用平均值插补函数 4 插补结果 利用 numpy对数据进行插补是一个非常常见的方法 代码也很多 但是网上的代码一般没有很详细的解释 不利于初