Lasso sklearn 中的选项 normalize = True 有何作用？

2023-12-02

我有一个矩阵，其中每列的平均值为 0，标准差为 1

In [67]: x_val.std(axis=0).min()
Out[70]: 0.99999999999999922

In [71]: x_val.std(axis=0).max()
Out[71]: 1.0000000000000007

In [72]: x_val.mean(axis=0).max()
Out[72]: 1.1990408665951691e-16

In [73]: x_val.mean(axis=0).min()
Out[73]: -9.7144514654701197e-17

如果我使用归一化选项，非 0 系数的数量会发生变化

In [74]: l = Lasso(alpha=alpha_perc70).fit(x_val, y_val)

In [81]: sum(l.coef_!=0)
Out[83]: 47

In [84]: l2 = Lasso(alpha=alpha_perc70, normalize=True).fit(x_val, y_val)

In [93]: sum(l2.coef_!=0)
Out[95]: 3

在我看来，归一化只是将每列的方差设置为 1。结果变化如此之大，这很奇怪。我的数据已经有方差=1。

那么，normalize=T 实际上是做什么的呢？

这是由于缩放概念中的（或潜在的[1]）不一致造成的。sklearn.linear_model.base.center_data: If normalize=True，然后它将除以norm设计矩阵的每一列，而不是由标准差。对于它的价值，关键字normalize=True将从 sklearn 0.17 版开始弃用。

Solution: Do not use standardize=True。相反，建立一个sklearn.pipeline.Pipeline并在前面添加一个sklearn.preprocessing.StandardScaler给你的Lasso目的。这样您甚至不需要执行初始缩放。

请注意，Lasso 的 sklearn 实现中的数据丢失项按比例缩放n_samples。因此，产生零解的最小惩罚是alpha_max = np.abs(X.T.dot(y)).max() / n_samples (for normalize=False).

[1] 我说潜在的不一致，因为正常化与该词相关联norm因此至少在语言上是一致的:)

[如果您不想了解详细信息，请停止阅读]

这是一些复制和粘贴的代码，重现了问题

import numpy as np
rng = np.random.RandomState(42)

n_samples, n_features, n_active_vars = 20, 10, 5
X = rng.randn(n_samples, n_features)
X = ((X - X.mean(0)) / X.std(0))

beta = rng.randn(n_features)
beta[rng.permutation(n_features)[:n_active_vars]] = 0.

y = X.dot(beta)

print X.std(0)
print X.mean(0)

from sklearn.linear_model import Lasso

lasso1 = Lasso(alpha=.1)
print lasso1.fit(X, y).coef_

lasso2 = Lasso(alpha=.1, normalize=True)
print lasso2.fit(X, y).coef_

为了了解发生了什么，现在观察一下

lasso1.fit(X / np.sqrt(n_samples), y).coef_ / np.sqrt(n_samples)

等于

lasso2.fit(X, y).coef_

因此，缩放设计矩阵并适当地重新缩放系数np.sqrt(n_samples)将一种模型转换为另一种模型。这也可以通过对惩罚进行操作来实现：套索估计器normalize=True其处罚缩小了np.sqrt(n_samples)其作用类似于套索估计器normalize=False（关于您的数据类型，即已经标准化为std=1).

lasso3 = Lasso(alpha=.1 / np.sqrt(n_samples), normalize=True)
print lasso3.fit(X, y).coef_  # yields the same coefficients as lasso1.fit(X, y).coef_

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Lasso sklearn 中的选项 normalize = True 有何作用？的相关文章

在 SQLAlchemy 中，过滤器是在连接之前还是之后应用？

使用 SQLAlchemy 我执行如下查询 import models as m import sqlalchemy as sa s session maker q s query m ShareCount m Article join m
按每个元素中出现的数字对字符串列表进行排序[重复]

这个问题在这里已经有答案了我有一个脚本其目的是对不断下载到服务器上的空间数据集文件进行排序和处理我的列表目前大致如下 list file t00Z wrff02 grib2 file t00Z wrff03 grib2 file t0
我可以在 matplotlib 中的绘图左侧放置一个垂直颜色条吗？

来自颜色条方法的 matplotlib 命令摘要 http matplotlib org api pyplot api html highlight colorbar matplotlib pyplot colorbar我知道关键字参数or
我可以同时打开两个 Tkinter Windows 吗？

可以同时打开2个窗口吗 import tkinter as Tk import random import math root Tk Tk canvas Tk Canvas root background image Tk PhotoIma
Discord.py 斜线命令在 cogs 中不起作用

我正在构建一个不和谐的机器人并且想要在 cogs 内使用斜杠命令但这些命令不显示或工作这是代码 cog guild ids 858573429787066368 861507832934563851 class Slash comma
获取字符串模板中所有标识符列表的函数（Python）

对于标准库string template在Python中有没有一个函数可以获取所有标识符的列表例如使用以下 xml 文件
在多核上运行 python 线程

我知道Python 2 7不允许在不同的内核上运行多个线程你需要使用multiprocessing模块以实现某种程度的并发性我正在看concurrent futuresPython 3 4 中的模块是否使用ThreadPoolExec
pandas 数据框的最大大小

我正在尝试使用读取一个有点大的数据集pandas read csv or read stata功能但我不断遇到Memory Errors 数据帧的最大大小是多少我的理解是只要数据适合内存数据帧就应该没问题这对我来说不应该是问题还
无法使用Python请求会话模块登录网站

我刚刚开始进行网络抓取对于我的第一个项目我尝试使用 requests Session 登录 artofproblemsolving com 并访问另一个用户的帐户这是我的代码 import requests LOGIN URL htt
cxfreeze virtualenv 中缺少 distutils 模块

从 python3 2 项目运行 cxfreeze 二进制文件时我收到以下运行时错误 project dist project distutils init py 13 UserWarning The virtualenv distuti
右键单击 QPushButton 上的 contextMenu

对于我的应用程序我在 Qt Designer 中创建了一个 GUI 并将其转换为 python 2 6 代码关于一些QPushButton 与设计器创建我想添加右键单击上下文菜单菜单选项取决于应用程序状态如何实现这样的上下文菜单
使用 python 从 CSV 创建字典

我有一个 CSV 格式的文件其中 A B 和 C 是标题我如何以Python方式将此CSV转换为以下形式的字典 A 1 B 4 C 7 A 2 B 5 C 8 A 3 B 6 C 9 到目前为止我正在尝试以下代码 import csv
使用 Python-VLC 的 PyInstaller：无属性“media_player_new”错误

我使用 Python VLC 创建视频播放器并使用 PyInstaller 在 Windows 10 计算机上生成可执行文件最初它给了我错误 Import Error Failed to load dynlib dll libvlc
如何将 django ModelForm 字段显示为不可编辑

接受我的初步教训django ModelForm 我想让用户能够编辑博客中的条目 BlogEntry has a date postedTime title and content 我想向用户展示一个编辑表单其中显示所有这些字段但仅包含
python 中的 F 字符串前缀给出语法错误[重复]

这个问题在这里已经有答案了我有一个名为 method 的变量它的值是 POST 但是当我尝试运行时print f method method is used 它不断在最后一个双引号处给出语法错误我找不到它这样做的原因我正在使用 py
本地主机上的 Google App Engine GQL 查询

我正在 Google App Engine Windows 上的 SDK 版本 1 7 0 上开发一个应用程序我需要经常测试该应用程序并且此测试涉及数据存储上的大量 GQL 查询您可以在 App Engine 管理界面的浏览器中在线运
如何将Python包从旧版本安装到新版本？

我正在使用 python 3 7 最近在 Linux 中安装了 python 3 8 是否有任何 bash 命令或脚本可以获取 3 7 的所有软件包列表并在 3 8 版本中一一安装我想避免每个包裹都手工完成注意我将它们安装在我的系统中
在自定义 keras 层的调用函数中传递附加参数

我创建了一个自定义 keras 层目的是在推理过程中手动更改前一层的激活以下是基本层它只是将激活值乘以一个数字 import numpy as np from keras import backend as K from keras
如何在不同的目录中执行python脚本？

Solved对于可能觉得这有帮助的人请参阅下面我的答案我有两个脚本 a py 和 b py 在我当前的目录 C Users MyName Desktop MAIN 中我运行 gt python a py 第一个脚本 a py 在我当前
在Python中使用os.makedirs创建目录时出现权限问题

我只是想处理上传的文件并将其写入工作目录中该目录的名称是系统时间戳问题是我想以完全权限创建该目录 777 但我不能使用以下代码创建的目录755权限 def handle uploaded file upfile cTimeStamp

随机推荐

检查输入是否为整数

为了学习 C 我正在翻译我用 Python 编写的程序我写了这个 n 0 while n lt 2 try n int raw input Please insert an integer bigger than 1 except Val
Java：计算三角形的面积

import java lang Math import java awt public class Triangle implements Shape java awt Point a java awt Point b java awt
如何在邮件服务器上的 HTML 电子邮件中嵌入图像？

如何在 HTML 中嵌入图像以便图像与 html 文件内容一起传递而不需要单独访问服务器来检索图像我们需要它在签名离开邮件服务器之前将公司徽标嵌入到签名中我们不想使用雷鸟或 Outlook 等客户端解决方案来添加签名 thanks
Google 身份服务 - 保持登录状态

我正在从 Google 登录平台库迁移到新的 Google 身份服务使用一键登录但当用户刷新或转到其他页面时网站会自动注销用户这是加载一键登录的每个页面上都存在的代码 div div 删除它只会让用户退出无法重新登录有一个cook
Google App Engine - 如何扩展 db.IntegerProperty

当我在整数和字符串之间交换很多时我希望扩展 db IntegerProperty 以下是一些代码片段和我在应用程序启动器日志中收到的错误消息有什么指点吗谢谢大卫 class FSIdProperty db IntegerProper
仅 CSS 动画绘制具有边框半径和透明背景的圆

我正在尝试绘制一个具有边框半径的圆并为其设置动画我可以做到这一点但我不能做的是覆盖元素并将圆圈背景设置为透明而不取消隐藏蒙版我无法使其在元素上透明因为需要应用遮罩来隐藏圆圈的左半部分因为它旋转以模仿绘制效果 HTML div
Android Studio 构建失败，并显示“在根项目 'MyProject' 中未找到任务 ''”。

在更换笔记本电脑并更新到 Android Studio 版本 0 8 2 后尝试构建项目时我收到此错误失败构建失败并出现异常什么地方出了错在根项目 MyProject 中找不到任务尝试运行 gradle 任务以获取可用任务的列
远程网络驱动程序上的 Chrome（通过网格）无法启动

我在使用 Grid 上的远程 Webdriver 功能 1 个 Linux 集线器和 1 个带有 Firefox 和 Chrome 的 Linux 节点启动 Chrome 的 Cucumber 测试时遇到问题 Firefox 测试进行得很
使用 EaselJS 在 html5 画布中绘制一条线

我对 Easel 和 HTML5 本身非常陌生我正在尝试使用 EaselJS 在画布上画一条线 X 坐标固定为 100 Y 坐标从数组列表中获取我编写的代码如下有人可以让我知道我哪里出错了吗 function myFunction a
Android Wear-如何捕获触摸事件

我想捕获Android Wear上的触摸事件我使用的是Samsung Gear Live 来绘制触摸轨迹我尝试捕获 onTouch 事件和 onGenericMotionEvent 事件如以下代码所示但是当我在屏幕上滑动时该事件仅
向 .NET 应用程序添加脚本功能

我有一个用 C 编写的小游戏它使用数据库作为后端它是 A集换式卡牌游戏我想以脚本的形式实现卡片的功能我的意思是我本质上有一个界面 ICard 卡片类实现了 public class Card056 ICard 并且其中包含一个由游戏
ExecutorService 的线程安全静态初始化

我正在尝试基于 Initialization on demandholder idiom 创建一个线程安全的单例类这是我的代码 public class Check private Check private static class P
如何获取查询字符串并在 htaccess 中重写它

我有这样的疑问 example com folder q keyword 请建议如何将包含关键字作为参数的所有查询重定向到服务器上的其他文件 folder core index php id 1 I mean 1必须是keyword 这
Mac 操作系统不支持 Java 页面翻转？

我希望有人之前偶然发现过以下问题我的 Java 应用程序在 Mac 上存在图形性能问题因此我制作了一个简单的测试应用程序代码如下当我在 Windows 上运行它时控制台告诉我图形配置翻转真的BufferStrategy翻转真
模型保存骨干

我正在在线数据库 Parse com 上保存模型 save 函数工作正常但 save 内部的回调函数没有被调用 this utente save success function persona never called console
Angular 6 代理不再工作

我有一个 Angular 应用程序和一个 Web API 为了在本地进行测试我使用代理配置文件 proxy conf json api target host localhost protocol http port 50565 secu
以编程方式将销售价格添加到产品变体中

我需要以编程方式更新可变产品及其所有变体的销售价格我需要添加什么样的元字段我正在尝试更新主要产品例如 update post meta post id regular price 100 update post meta post i
重写java中的“私有”方法

这个想法有些含糊不清我需要一些澄清我的问题是使用这段代码时 public class B private void don System out println hoho private public static void main
控制器上下文为空

我有这个 MVC4 控制器 ControllerB public class MyControllerB Controller public bool Check string actionName ControllerBase contr
Lasso sklearn 中的选项 normalize = True 有何作用？

我有一个矩阵其中每列的平均值为 0 标准差为 1 In 67 x val std axis 0 min Out 70 0 99999999999999922 In 71 x val std axis 0 max Out 71 1 0000

Lasso sklearn 中的选项 normalize = True 有何作用？

Lasso sklearn 中的选项 normalize = True 有何作用？ 的相关文章

随机推荐

热门标签

Lasso sklearn 中的选项 normalize = True 有何作用？的相关文章