特征工程——归一化处理不适用情况

2023-11-01

哪些机器学习算法不需要做归一化(Normalization)处理?

概率模型不需要归一化，因为它们不关心变量的值，而是关心变量的分布和变量之间的条件概率，如决策树、随机森林rf。而像AdaBoost、svm、Ir、KNN、KMeans之类的最优化问题就需要归一化。

对于树形结构为什么不需要归一化?

数值缩放，不影响分裂点位置。因为第一步都是按照特征值进行排序的，排序的顺序不变，那么所属的分支以及分裂点就不会有不同。对于线性模型，比如说LR，我有两个特征，一个是(01)的，一个是(010000)的，这样运用梯度下降时候，损失等高线是一个椭圆的形状，这样我想迭代到最优点，就需要很多次迭代，但是如果进行了归一化，那么等高线就是圆形的，那么SGD就会往原点迭代，需要的选代次数较少。另外，注意树模型是不能进行梯度下降的，因为树模型是阶跃的，阶跃点是不可导的，并且求导没意义，所以树模型(回归树)寻找最优点是通过寻找最优分裂点完成的从而不需要数据归一化

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

特征工程

python

大数据

算法

特征工程——归一化处理不适用情况的相关文章

如何配置 VS Code 以便能够单步执行调试 Python 脚本时加载的共享库 (.so)？

从命令行使用 gdb 我可以在加载共享库时中断知道我有共享库的源代码如何在 VS Code 中获得相同的行为对我来说它以某种方式起作用这是我的设置 Ubuntu 18 04 调试我从 Python3 加载的 C 共享库更具体地说
PyTorch 如何计算二阶雅可比行列式？

我有一个正在计算向量的神经网络u 我想计算关于输入的一阶和二阶雅可比矩阵x 单个元素有人知道如何在 PyTorch 中做到这一点吗下面是我项目中的代码片段 import torch import torch nn as nn class
将 for 循环转换为列表理解

我有一个for循环将字符串列表中每个元素的子字符串与另一个字符串列表中的元素进行比较 mylist for x in list1 mat False for y in list2 if x 14 in y mat True if not
从第二个 DF 中查找一个 DF 中属于同等大小的矩形（由两个点给出）的点的快速（矢量化）方法

我的数据框 A 如下所示 type latw lngs late lngn 0 1000 45 457966 9 174864 45 458030 9 174907 1 1000 45 457966 9 174864 45 458030 9
加快 pandas groupby 中的滚动总和计算

我想按组计算大量组的滚动总和但我很难快速地完成它 Pandas 内置了滚动和展开计算器的方法这是一个例子 import pandas as pd import numpy as np obs per g 20 g 10000 obs g
Pycharm 出现 Kivy 错误 [严重] [应用程序] 无法获取窗口，中止

我正在尝试让示例 Kivy 代码之一在我的机器上运行我使用的是 Pycharm 社区版 2017 1 安装了 anaconda python 2 7 和 Kivy 1 9 我已使用项目设置将 Kivy 模块和 Pygame 模块安装到项目
Django - 403 Forbidden CSRF 验证失败

我在 Django 中为我的网站提供了一个联系表单当我在本地测试它时它工作正常但现在当我尝试实时提交我的联系表单时它总是出现 403 禁止 CSRF 验证失败 view def contact request if reques
为什么tcl/tkinter只支持BMP字符？

我正在尝试在基于 tkinter 和 tcl 构建的 gui 中查询和显示 utf 8 编码字符但是我发现 tkinter 无法显示 4 字节字符即大于 U FFFF 的 unicode 代码点为什么会这样呢实现非 BMP 字符对
pythonic方式来反转一个字典，其中值是列表？

我有一本看起来像这样的字典 letters by number 1 a b c d 2 b d 3 a c 4 a d 5 b c 我想将其反转为如下所示 numbers by letter a 1 3 4 b 1 2 5 c 1 3 5
我怎样才能用Python中的语音识别来检测一个单词

我知道如何用 Python 检测语音但这个问题更具体如何让 Python 只监听一个单词然后如果 Python 可以识别该单词则返回 True 我知道我可以让 Python 一直监听然后做出类似的东西伪代码 while True
rpy2 传递 python 保留关键字参数

我试图通过 python 使用 r 的密度函数并且必须将 from to 参数传递给密度函数然而由于 from 这个词是Python中的保留关键字我该如何实现这一点呢谢谢这是到目前为止的代码 r density robjects
访问具有动态名称的变量的值

我发现了几个主题其中讨论了在循环中动态创建单个变量是不好的做法最好使用字典就我而言我不需要动态创建它们我想要access他们在循环中我不想用字典对于他们来说因为这些变量在代码中的很多地方使用并且只有一个地方我需要这种动态访问
使用 Python 访问 MP3 音乐数据

我正在尝试编写一个 Python 脚本用于使用歌曲的数据作为比较的基础来搜索重复的 mp3 4 文件我的情况涉及许多文件名相似但 ID3 标签不同的 mp3 4 文件起初我尝试循环并使用 md5 来查找重复文件忽略文件名当然当
使用 cv2 在 python 中创建多通道零垫

我想用 cv2 opencv 包装器在 python 中创建一个多通道 mat 对象我在网上找到了一些例子其中 c Mat zeros 被 numpy zeros 替换这看起来不错但似乎没有多通道类型适合看代码 import cv
在 C++ 中运行 python [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我有一个用 C 编写的应用程序和一个测试系统也是用 C 编写的测试系统非常复杂并且很难改变我只想做一些小的改变我的班级是这样的
带过滤器的 SQLAlchemy func.count

我正在使用一个进行分页的框架如下所示 def get count query self return self session query func count select from self model def paginate se
dump() 缺少 1 个必需的位置参数：python json 中的“fp”

我正在尝试美化 json 格式但收到此错误 import requests as tt from bs4 import BeautifulSoup import json get url tt get https in pinterest
AWS Cognito 作为网站的 Django 身份验证后端

我对 Cognito 的理解是它可以用来代替本地 Django 管理数据库来对网站的用户进行身份验证然而我没有找到任何带有通过 Cognito 登录屏幕的基本 Hello World 应用程序的详细示例如果有人可以发布一篇文章逐步
Django MySQL 创建表时出错

我有一个类似的问题这张票 https code djangoproject com ticket 18256在 Django 论坛上提出我该如何解决这个问题我还扩展了一个用户模型如下所示 class Profile models Mo
Django ALLOWED_HOSTS 与 CORS(django-cors-headers)

ALLOWED HOSTS 和 CORS 之间有什么区别如果我定义了 ALLOWED HOSTS 我还需要定义 CORS 吗我没有使用 django 模板我也有可能动态定义这两个吗我认为没有我使用 django 作为后端并在不同

随机推荐

0欧姆电阻在电路中的作用

转载 http bbs eetzone com thread 147 1 1 html 总的来说0欧姆电阻有以下几个功能在电路中没有任何功能只是在PCB上为了调试方便或兼容设计等原因可以做跳线用如果某段线路不用直接不贴该电阻即可
Spring Boot Dubbo Zookeeper（含ZK安装脚本）

文章目录 Spring Boot Dubbo Zookeeper 含ZK安装脚本简介 Dubbo Common Provider Consumer Zookeeper Spring Boot Dubbo Zookeeper 含ZK安装脚本
FISCO BCOS简介

FISCO BCOS是由国内企业主导研发对外开源安全可控的企业级金融联盟链底层平台由金链盟开源工作组协作打造并于2017年正式对外开源社区以开源链接多方截止2020年5月汇聚了超1000家企业及机构逾万名社区成员参与共建共治
如何在linux服务器部署pgsql，安全版以及可能出现各种问题解决（保姆级教程）

文章目录准备一安装二配置环境变量 1 切换用户 2 修改配置文件三建立数据库四设置监听总结准备提示市面上那些在linux服务器部署pgsql好多都是水货效果良莠不齐笔者花了两天时间成功部署了pgsql 记录下方
【华为OD机试真题2023B卷 JAVA&JS】非严格递增连续数字序列

华为OD2023 B卷机试题库全覆盖刷题指南点这里非严格递增连续数字序列知识点字符串时间限制 1s 空间限制 256MB 限定语言不限题目描述输入一个字符串仅包含大小写字母和数字求字符串中包含的最长的非严格递增连续数字序列
gns3中两个路由器分别连接主机然后分析ip数据转发报文arp协议_wireshark分析（传输层，网络层，链路层）...

wireshark抓包软件总是友善地帮包分层 1 链路层 Ethernet II协议即以太网协议以太网帧的格式如下这里的地址指的是MAC地址每一个网卡对应唯一的MAC 类型指的是IP ARP CRC效验数据是否异常在wireshar
shell脚本-cp命令复制目录报错cp: omitting directory

cp 复制目录报错如下报错原因 cp命令默认是不能复制目录的需要加参数解决办法使用cp r命令进行复制递归处理将指定目录下的所有文件与子目录一并处理拓展 cp语法 cp 选项参数 a 此参数的效果和同时指定 dpR 参数相
Sina实时股票数据接口大全

From http blog csdn net ablo zhou article details 4283320 实时股票数据接口大全股票数据的获取目前有如下两种方法可以获取 1 http javascript接口取数据 2 web s
【R语言】期末考试五道题

question1 setwd G Rexam20174710426 a lt 2 b lt 0 c lt 1 d lt 7 e lt 4 f lt 7 g lt 1 h lt 0 i lt 4 j lt 2 k lt 6 o lt NA
大一python期末复习综合题

目录前言问题1 阶层函数问题2 文件读取问题3 嵌套循环问题4 求最短路径问题4 1 路径长度问题4 2 最短路径问题4 2 1 列表添加元素问题4 2 2 返回最短路径问题5 绘图问题5 1 绘制城市坐标散点图问题
面试官：说一下SSO 单点登录和 OAuth2.0 的区别

您好我是路人更多优质文章见个人博客 http itsoku com 一概述 SSO是Single Sign On的缩写 OAuth是Open Authority的缩写这两者都是使用令牌的方式来代替用户密码访问应用流程上来说他们非常
ibatis的批量增删改

1 Ibatis的批量添加
Multi-Thread Life

最近一段时间的工作比较有趣翻译Datasheet 代码调试和讲解说白了就是写教程目前已经写好了串口 LCD的驱动讲解虽然是裸机驱动无需与OS打交道但也算得上是驱动开发了吧 so 放弃了开发一个CE驱动的计划手头的定时器篇马上就
python3使用smtplib发送邮件，带xlsx附件

一概述最近在做一个统计报表需要发送邮件并带附件的在之前的文章中 https www cnblogs com xiao987334176 p 10022026 html 已经实现了发送邮件但是没有实现发送附件功能二正式代码 u
Android Treble架构学习

自Android 8 0以来 Google引入了Treble架构希望对vendor和system分区进行解耦处理说句不好听的就是aosp soc odm oem 都分开各搞各的哈哈期待实现 system进程不加载vendor共享库
【python】详解collections模块中OrderedDict的使用

很多人认为python中的字典是无序的因为它是按照hash来存储的但是python中有个模块collections 英文收集集合里面自带了一个子类OrderedDict 实现了对字典对象中元素的排序 import collecti
亲密关系-【关键对话】-有哪些决定关系的重要议题？

爱的感觉不来自任何顿悟或哲思来自日常生活中一场又一场深度沟通案例老婆很喜欢一个脱口秀演员但我非常讨厌问题怎么解决重点不在于如何解决这个问题重点在于这为什么是个问题当我们不沟通家庭时间分配问题某一次加班带来的时间挤占就会成
it信息技术草稿

信息技术介绍信息技术行业组成相关职位深度学习中的泛化之谜如下为什么使用梯度下降 GD 训练的过度参数化神经网络在真实数据集上泛化得很好即使它们能够拟合大小相当的随机数据集此外在所有适合训练数据的解决方案中 GD 如何找到一个泛
STM32F103时钟配置流程

一般情况下单片机的时钟配置是单片机程序中的第一步也是很重要的一步这时候我们需要考虑以下几个问题 1 系统时钟的时钟源用哪个 2 系统时钟频率要多少 3 每个模块的时钟频率要多少 4 如果外部时钟出了问题这个时候时钟是怎么运行的下面就
特征工程——归一化处理不适用情况

哪些机器学习算法不需要做归一化 Normalization 处理概率模型不需要归一化因为它们不关心变量的值而是关心变量的分布和变量之间的条件概率如决策树随机森林rf 而像AdaBoost svm Ir KNN KMeans之类的最

特征工程——归一化处理不适用情况

特征工程——归一化处理不适用情况 的相关文章

随机推荐

热门标签

特征工程——归一化处理不适用情况的相关文章