2. 特征缩放(归一化)

2023-11-04

特征缩放

  为了消除数据特征之间的量纲影响,我们需要对特征进行归一化处理,使得不同指标之间具有可比性。例如,分析一个人的身高和体重对健康的影响,如果使用 米(m) 和 千克(kg) 作为单位,那么分析出来的结果显然会倾向于数值差别比较大的体重特征,想要得到更为准确的结果,就需要进行 特征归一化 处理,使得各指标处于同一数值量级,以便进行分析。

  同时,特征归一化可提高模型精度和模型收敛速度,是预处理的重要环节之一,特征归一化又叫特征缩放


一、标准化(零均值归一化)

1.1 定义

  它将原始数据类型映射到均值为0,标准差为1的分布上。对特征向量进行缩放是无意义的,比如对班级、年龄、性别一组特征向量(行)进行标准化操作是无价值的。标准化要求数值满足高斯分布,数据越接近于高斯分布,标准化效果越佳。具体来说,假设原始特征的均值为 μ \mu μ,标准差为 σ \sigma σ ,那么 标准化(归一化) 公式定义为
z = x − μ σ z = \frac{x - \mu}{\sigma} z=σxμ

1.2 特点

  标准化后使得不同度量的数据特征具有可比性,同时不改变数据的原始分布状态。

  • 标准化对数据进行规范化处理,去除数据的单位限制,将其转化为无量纲的纯数值,便于不同单位或量级的指标能够进行比较和加权。

  但是,数据标准化并不是万能的。在实际应用中,通过梯度下降法求解的模型通常是需要归一化的,包括线性回归,逻辑回归,支持向量机,神经网络等模型。但对于 决策树 等模型则并不适用,以 C4.5 为例,决策树在进行结点分裂时主要依据数据集 D D D 关于特征 x x x 的信息增益比,而信息增益比跟特征是否经过归一化是无关的,因为归一化并不会改变样本在特征 x x x 上的信息增益。

二、最小值-最大值归一化(线性函数归一化)

2.1 定义

  它对原始数据进行线性变换,以便结果映射到 [ 0 , 1 ] [0, \quad 1] [0,1] [ − 1 , 1 ] [-1, \quad 1] [1,1] 的范围,实现对原始数据的等比缩放,公式如下:
X n o r m = X − X m i n X m a x − X m i n X_{norm} = \frac{X - X_{min}}{X_{max} - X_{min}} Xnorm=XmaxXminXXmin
  其中 X X X 为原始数据, X m a x X_{max} Xmax X m i n X_{min} Xmin 分别为数据最大值和最小值。

2.2 特点

  • 受训练集中最大值和最小值影响大,存在数据集中最大值和最小值动态变化的可能
  • 容易受到噪声(异常点、离群点)影响

2.3 区别

最大值-最小值归一化 标准化
不同点 将样本的特征值转换到同一量纲下,把数据映射到[0, 1]空间中 对特征列进行数据处理,每个样本点都能对标准化产生影响
改变了原始数据分布 不改变原始数据分布
相同点 都是线性变换,通过对向量按比例的压缩,然后再平移
都能减少由于量纲不同引起的误差

三、应用场景

3.1 最小值-最大值归一化应用场景

  1. 不涉及协方差计算
  2. 不涉及距离度量
  3. 数据不符合正态分布
  4. 数据较为稳定,不存在极端的最大值和最小值

3.2 标准化应用场景

在分类、聚类算法中:

  1. 需要使用距离来度量相似性
  2. 需要使用 PCA 等技术进行降维
  3. 需要用到 SVMLR
  4. 数据存在异常值或较多噪声值

3.3 注意事项

  • 不要在整个数据集上做归一化处理,要区分训练集和测试集
  • 在实际应用中,特征缩放的标准化操作更有用

四、其他方法

4.1 均值归一化

x ′ = x − a v e r a g e ( x ) m a x ( x ) − m i n ( X ) x' = \frac{x - average(x)}{max(x) - min(X)} x=max(x)min(X)xaverage(x)

4.2 缩放成单位向量

x ′ = x ∣ ∣ x ∣ ∣ x' = \frac{x}{||x||} x=xx

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

2. 特征缩放(归一化) 的相关文章

  • element-ui遮罩层

    通用下载方法内 通用下载方法 export function download url params filename method downloadLoadingInstance Loading service text 正在下载数据 请
  • 7-WebApis-6

    Web APIs 6 目标 能够利用正则表达式完成小兔鲜注册页面的表单验证 具备常见的表单验证能力 正则表达式 综合案例 阶段案例 正则表达式 正则表达式 Regular Expression是一种字符串匹配的模式 规则 使用场景 例如验证

随机推荐

  • 启动nacos报错:Exception in thread main java.lang.UnsupportedClassVersionError

    最近在做微服务项目的时候用到nacos 使用的版本分别是最新版nacos server 2 0 2和nacos server 1 4 2 但是在启动的时候报错了先看一下报错信息吧 报错信息 G nacos server 1 4 2 naco
  • 单相并网逆变器学习记录-------------SOGI-PLL锁相环

    目录 一 锁相环的简介 二 dq坐标系 三 SOGI生成 坐标系 四 SOGI PLL 五 SOGI PLL的仿真 一 锁相环的简介 进入21世纪 随着资源 环境问题的日益加剧 以太阳能 风能和热电联产等为代表的可再生 清洁能源纷纷通过逆变
  • JetBrains Account connection error: java.security.SignatureException: Signat

    用学生账户注册登录idea时 网上看到了很多解决方式 大部分都是修改hosts文件 即删除里面的 0 0 0 0 account jetbrains com 0 0 0 0 www jetbrains com 那么问题来了 我的 hosts
  • 被勒索病毒加密的文件如何破解?

    想要硬刚勒索病毒 脱密加密的文件 是很难的 之前 我已经介绍了数字签名 勒索病毒使用了公钥加密另一个常用应用 数字信封 技术 想要恢复勒索病毒加密的文件 可以破解黑客的公钥 或者破解黑客加密文件的临时对称密钥 而这2种算法 黑客都选用了目前
  • 如何在项目中使用kafka?

    1 如何在项目中使用kafka 1 1 因为kafka的使用依赖于zookeeper https mp weixin qq com s geR3pDw Yjhmu8KMsXQosg在kafka v2 8版本后将zookeeper也集成在了服
  • 【系统篇 / 域】❀ 06. Windows10 加入域 ❀ Windows Server 2016

    简介 众所周知 Windows Server 2016 与其它版本不同的地方就是支持 Windows10 加入域服务了 修改 DNS Windows10 加入域之前 需要把网卡的DNS指向域服务器 在Windows10系统中 鼠标右击右下角
  • Elasticsearch自定义评分的多种方法

    Elasticsearch自定义评分的多种方法 在大数据领域 Elasticsearch是一个广泛使用的开源搜索和分析引擎 它提供了强大的搜索功能 并支持通过自定义评分机制来调整搜索结果的排序 在本文中 我们将探讨Elasticsearch
  • 导师总结的最全python核心知识点汇总笔记,260页最完整版。

    python学习简单 但完全掌握还是会有许多重难点 本次收集了python从入门到精通的所有重难知识点详细梳理讲解 并附有多种思路与方法 配合案例可以更快速的让你掌握相关知识节点 这份笔记由导师亲自汇总整理编辑 共计260页内容 堪称经典
  • php写layui上传接口,layui 富文本图片上传接口与普通按钮 文件上传接口的例子

    富文本 图片上传 html js 记得之前引入layui js layui use layedit function var layedit layui layedit layedit set uploadImage url url ind
  • MySQL-插入数据(insert into,replace into)

    插入数据的方法 mysql中常用的三种插入数据的语句 insert into 正常的插入数据 插入数据的时候会检查主键或者唯一索引 如果出现重复就会报错 replace into 表示插入并替换数据 若表中有primary key或者uni
  • 跨境电商----系统构建前了解

    20210529 在与国外朋友聊到跨境电商这个话题时候 思绪回到好几年前 那时候雪花纷飞 中国跨境电商刚刚高速发展时期 我记得 北京的夏天 有个穿着背心的小年轻 横穿在5 6环 中国跨境电商高速情况下 规模 产业规模 都在变化 看到C2C
  • vue双向数据绑定是如何实现的?

    Vue中的双向数据绑定主要是通过数据劫持和发布订阅模式来实现的 数据劫持 Vue通过使用Object defineProperty 方法来对data对象中的属性进行劫持 从而实现对数据的双向绑定 具体实现方式为 1 在Vue实例化时 将da
  • 网页视频下载mp4格式到本地

    发现个网页视频地址下载保存为mp4格式的资源 分享给大家 git下载地址 https gitee com tiankf mp4 CSDN下载地址 MP4下载到保存到本地资源 CSDN文库 使用方式 代码如下
  • html2canvas将Html5转换为图片并下载到本地,纯JS实现

    首先引入html2canvas js 然后是文件本地保存并重命名的一段函数 最后事件函数处理就可以了 在本地进行文件保存 param String data 要保存到本地的图片数据 param String filename 文件名 var
  • 关于CADC数据集的处理笔记

    简要介绍 数据集 Canadian Adverse Driving Conditions Dataset CADC 是全球首个针对寒冷环境的自动驾驶数据集 其内包含 56 000 张相机图像 7 000 次 LiDAR 扫描 75 个场景
  • shell常用命令

    目录 常用命令 目录信息查看命令 ls 目录切换命令 cd 当前路径显示命令 pwd 系统信息查看命令 uname 清屏命令 clear 系统帮助命令 man 系统重启命令 reboot 系统关闭命令 poweroff 查看和修改系统时间命
  • 如何提供一个可信的AB测试解决方案

    本文以履约场景下的具体实践为背景 介绍如何提供一个可信赖的AB测试解决方案 一方面从实验方法的角度论述实验过程中容易被忽视的统计陷阱 给出具体的解决方案 一方面从平台建设角度论述针对业务场景和对应约束制定实验方案提供给用户 而不只是功能和方
  • 运营商大数据实时获取精准数据

    随着大数据技术的快速发展和完善 出现了一种新的扩张方式 互联网大数据的精准扩张 如果没有一个好的渠道来获得顾客 这就像准备热情地做饭 但当饭吃完后 人们只能饿了 今天的消费者已经从最早的线下消费逐渐过渡到互联网消费 再到现在的移动互联网消费
  • openGL之API学习(一八零)POINTS LINES TRIANGLES QUADS 绘图顺序规则

    默认每一个图形的绘图方向是相同的 要么逆时针 默认方向 要么顺时针 1 GL TRIANGLES 是以每三个顶点绘制一个三角形 第一个三角形使用顶点v0 v1 v2 第二个使用v3 v4 v5 以此类推 如果顶点的个数n不是3的倍数 那么最
  • 2. 特征缩放(归一化)

    特征缩放 为了消除数据特征之间的量纲影响 我们需要对特征进行归一化处理 使得不同指标之间具有可比性 例如 分析一个人的身高和体重对健康的影响 如果使用 米 m 和 千克 kg 作为单位 那么分析出来的结果显然会倾向于数值差别比较大的体重特征