4-0 特征选择简述

2023-10-30

第4章特征选择

4.0 特征选择简述

请参考《数据准备和特征工程》中的相关章节，调试如下代码。

import pandas as pd

df_wine = pd.read_csv("/home/aistudio/data/data20527/wine_data.csv")
df_wine.head()

	Class_label	Alcohol	Malic_acid	Ash	Alcalinity_of_ash	Magnesium	Total_phenols	Flavanoids	Nonflavanoid_phenols	Proanthocyanins	Color_intensity	Hue	OD280/OD315_of_diluted_wines	Proline
0	1	14.23	1.71	2.43	15.6	127	2.80	3.06	0.28	2.29	5.64	1.04	3.92	1065
1	1	13.20	1.78	2.14	11.2	100	2.65	2.76	0.26	1.28	4.38	1.05	3.40	1050
2	1	13.16	2.36	2.67	18.6	101	2.80	3.24	0.30	2.81	5.68	1.03	3.17	1185
3	1	14.37	1.95	2.50	16.8	113	3.85	3.49	0.24	2.18	7.80	0.86	3.45	1480
4	1	13.24	2.59	2.87	21.0	118	2.80	2.69	0.39	1.82	4.32	1.04	2.93	735

from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler

# X为数据集中特征的集合，y为数据集中标签的集合
# test_size=0.3: 测试数据集所占比例为0.3
# random_state=0: 随机数种子
# stratify=y 训练和测试集都按照y中的比例分配

X, y = df_wine.iloc[:, 1:], df_wine.iloc[:, 0].values
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=0, stratify=y)

# 对测试集和训练集分别实现特征标准化。
std = StandardScaler()
X_train_std = std.fit_transform(X_train)
X_test_std = std.fit_transform(X_test)


from sklearn.linear_model import LogisticRegression

# LogisticRegression()：建立对数概率回归模型，并添加惩罚项，防止模型出现过拟合
lr = LogisticRegression(C = 1.0, penalty = 'l1',solver='liblinear')    

lr.fit(X_train_std, y_train)

LogisticRegression(C=1.0, class_weight=None, dual=False, fit_intercept=True,
                   intercept_scaling=1, l1_ratio=None, max_iter=100,
                   multi_class='auto', n_jobs=None, penalty='l1',
                   random_state=None, solver='liblinear', tol=0.0001, verbose=0,
                   warm_start=False)

# 输出13个特征的系数(权重)。特征系数为0的,说明此类特征与预测结果无关。
lr.coef_

array([[ 1.24625685,  0.18107053,  0.74257832, -1.16001118,  0.        ,
         0.        ,  1.17611757,  0.        ,  0.        ,  0.        ,
         0.        ,  0.54232728,  2.51117025],
       [-1.53720803, -0.387145  , -0.99522705,  0.36479669, -0.05946812,
         0.        ,  0.66779999,  0.        ,  0.        , -1.93405254,
         1.23412954,  0.        , -2.2316079 ],
       [ 0.1355303 ,  0.1687654 ,  0.3572857 ,  0.        ,  0.        ,
         0.        , -2.43734423,  0.        ,  0.        ,  1.5634205 ,
        -0.81896512, -0.49331848,  0.        ]])

# 截距，由于Class_label有3个可选值0，1，2；故存在3条截距
lr.intercept_

array([-1.26341218, -1.21591946, -2.37057917])

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

CH3数据准备和特征工程

机器学习

python

逻辑回归

数据挖掘

4-0 特征选择简述的相关文章

无法在 PIL 中对 16 位 TIF 应用图像滤镜

我尝试使用 python 应用图像过滤器PIL http www pythonware com products pil 代码很简单 im Image open fnImage im im filter ImageFilter BLUR 此
Ajax 调用后使用 Django 模板呈现 JSON 对象

我一直在尝试了解什么是最佳方法Ajax http en wikipedia org wiki Ajax 28programming 29 in Django http en wikipedia org wiki Django 28web f
Python 将列表中的字符串转换为数字

我遇到了以下错误消息以 10 为基数的 int 的文字无效 2 2 外部用单引号括起来内部用双引号括起来该数据位于primes列出使用print primes 0 样本数据在primes list 2 3 5 7 The primes
计算温度的偏导数（温度的水平平流）

我想知道哪种方法计算x和y方向温度的偏导数温度的水平平流最正确第二个代码使用温度纬向风和经向风的数据矩阵提取温度 T 纬向风分量 u 和经向风分量 v 的数据 import matplotlib pyplot as plt imp
地图与星图的性能？

我试图对两个序列进行纯Python 没有外部依赖逐元素比较我的第一个解决方案是 list map operator eq seq1 seq2 然后我发现starmap函数来自itertools 这看起来和我很相似但事实证明在最坏的情
Accel 无法在 gedit 3 插件中工作

我试图为 Gedit 3 编写一个使用 GObject 自省的小插件下面显示的代码的相关部分只是为了建立一个环境然后我可以将函数放入按钮的回调中但是该按钮的加速器不起作用这段代码有什么问题我正在使用教程here http www
SMTPAuthenticationError: (535, b'5.7.8 用户名和密码在 Django 生产中不被接受？

我在 Heroku 上部署了一个 Django 应用程序在其中一节中我使用 SMTP Gmail 设置向用户发送电子邮件当我在本地运行项目时电子邮件发送成功但在 Heroku 上部署的项目上却发送失败我在 Stackoverfl
确定Python模块中的函数是否可用

我正在研究一些使用Python套接字的代码socket fromfd http docs python org library socket html socket fromfd功能但是此方法并非在所有平台上都可用因此我正在编写一些后
如何更改条形图上的 y 轴限制？

我有一个df 我从中索引了europe n我绘制了一个条形图 europe n r 5 c 45 looks like this df Country string df Population numeric 变量 plt bar df C
ValueError：在 R 中使用 keras 模型时在用户代码中

我正在尝试使用 R 在 R 中运行一维 CNNkeras包裹我正在使用以下代码 library MASS library keras Create some data data Boston data lt Boston create a
numpy 数组最快的保存和加载选项

我有一个生成二维的脚本numpy数组与dtype float和形状的顺序 1e3 1e6 现在我正在使用np save and np load对数组执行 IO 操作然而这些函数对于每个数组都需要几秒钟的时间是否有更快的方法来保存和加载
Python 函数可能会引发哪些异常？ [复制]

这个问题在这里已经有答案了 Python 中有什么方法可以确定内置函数可能引发哪些异常例如文档 http docs python org lib built in funcs html http docs python org li
在 Ubuntu 上使用 Python 获取显示器分辨率

对于 Ubuntu win32api 中是否有与 GetSystemMetrics 相当的代码我需要获取显示器的宽度和高度以像素为单位我可以建议一些可以使用的方法不过我还没有使用过 xlib 版本 1 xlib Python 程序的
为图例中的点设置固定大小

我正在制作一些散点图我想将图例中的点的大小设置为固定的相等值现在我有这个 import matplotlib pyplot as plt import numpy as np def rand data return np random
对于 pygtk 应用程序来说，什么是好的嵌入式浏览器？

我计划在我的 pygtk 应用程序中使用嵌入式浏览器并且我正在 gtkmozembed 和 pywebkitgtk 之间进行辩论两者之间有什么引人注目的区别吗还有我不知道的第三种选择吗应该注意的是我不会使用它来访问网络上的内容我
Python3.1中的视图？

Python3 1中的视图到底是什么它们的行为方式似乎与迭代器类似并且它们也可以具体化为列表迭代器和视图有何不同据我所知视图仍然附加到创建它的对象上对原始对象的修改会影响视图来自docs http docs python or
在 Docker 容器内运行时，如何自动在 API 路由文件中进行 FASTAPI 拾取更改？

我通过 docker 运行 FastApi 在 docker compose 中创建一个名为 ingestion data 的服务我的 Dockerfile FROM tiangolo uvicorn gunicorn fastapi p
仅对某些行的不同大小的两个 pandas 数据帧的列进行求和

我有两个 pandas 数据框如下所示 df1 n column1 0 5 0 0 0 1 6 0 0 0 2 7 0 0 0 3 8 0 0 0 4 9 0 0 0 5 10 0 0 0 df2 n column2 0 6 0 1 0
sklearn 中带有词袋和附加情感特征的文本分类器

我正在尝试构建一个分类器除了词袋之外还使用情绪或主题 LDA 结果等特征我有一个包含文本和标签的 pandas DataFrame 并且想添加情感值 5 到 5 之间的数字和 LDA 分析结果带有句子主题的字符串我有一个工作词
Python pip 安装错误 [SSL: CERTIFICATE_VERIFY_FAILED]

我已经尝试解决这个问题有一段时间了由于某种原因我陷入了 ssl 问题并且不知道发生了什么问题我已经安装了 python2 7 和 easy install2 7 但是当尝试使用 easy install2 7 安装 pip 时出

随机推荐

机器学习——核函数

问已知三维空间中的两个样本点分别为 2 4 5 和 1 2 3 定义核函数表达式为试计算这两个样本点映射到十维空间后的答首先计算两个样本点的平方内积 2 1 4 2 5 3 25 然后代入核函数表达式 25 5 6 131 1 核函
如何修改element.style的样式

我们通常在用组件库或者调试web样式时发现有 element style这样的类名这种样式其实是行内样式导致的但是像element这种框架没法修改行内样式
Cookie和Session的区别与联系

1 前言 http的无状态和无连接无连接限制每次连接只处理一个请求服务端处理完客户端的请求并收到客户端的响应后就断开连接无状态没有记录用户的登录状态在淘宝上点击添加购物车点击收藏点击我的订单每一步就必须得重新登录非常麻
零相位,线性相位与非线性相位

零相位如图所示如果一个信号关于第0个抽样点左右对称则称这个信号具有零相位线性相位如果一个信号左右对称但对称轴所在位置不是第0个采样点则称这个信号具有线性相位这就意味着一个线性相位信号通过简单的左右平移变换便可转换为零相位信
unity（界面操作）如何打开模型网格

就一个简单的操作想不到网上的文章写的这么不清楚找了半天才找到误人子弟我干脆自己写一个如何在unity看到下面这个模型网格如图点击
【设计经验】5、Verilog对数据进行四舍五入（round）与饱和（saturation）截位

一软件平台与硬件平台软件平台操作系统 Windows 8 1 64 bit 开发套件 Vivado2015 4 2 Matlab2016a 仿真工具 Vivado自带仿真器二引言在利用Verilog写数字信号处理相关算法的过程中
人工智能基础学习笔记：简单神经网络的构建

文章目录前言一神经网络能够做什么二简单神经网络结构介绍三反向传播梯度下降法总结前言 author Liu Zhao 作为刚入坑机器学习的一名小白写这篇文章的初衷是想作为自己的一个学习笔记防止知识遗忘同时也希望能够跟
JAVA 简易登录界面实现输入账号密码错误三次自动退出（超简单）

成果图输入账号密码错误三次自动退出步骤 1 声明变量提示语JLabel 文本输入框JTextField 按钮 JButton 2 设置提示语文本框并加入JPanel中 3 添加设置按钮并给按钮添加监听器addActionListe
Java学习笔记-多线程实现方式

Java学习笔记多线程实现方式注意线程开启不一定立即执行由CPU调度执行 1 继承Thread类自定义线程类继承Thread类重写run 方法编写线程执行体创建线程对象调用start 方法启动线程 public class
[leetcode 周赛 149] 1157 子数组中占绝大多数的元素

目录 1157 Online Majority Element In Subarray 子数组中占绝大多数的元素描述思路代码实现 1157 Online Majority Element In Subarray 子数组中占绝大多数的元
第七届蓝桥杯大赛个人赛省赛（软件类 C语言b组）真题 (个人解题思路)

1 煤球数目有一堆煤球堆成三角棱锥形具体第一层放1个第二层3个排列成三角形第三层6个排列成三角形第四层10个排列成三角形如果一共有100层共有多少个煤球请填表示煤球总数目的数字注意你提交的应该是一个整数不要填
Zabbix基础概念及原理

Zabbix Zabbix基础概念及原理什么是zabbix 功能组件 Server 数据库 Web界面 Proxy agent 监控功能 zabbix工作原理 zabbix工作进程 zabbix agentd zabbix get zab
LeetCode题解-让所有学生保持开心的分组方法数

简单说两句作者后端小知识 CSDN个人主页后端小知识 GZH 后端小知识欢迎关注点赞收藏留言亲爱的各位友友们今天来给大家讲解一道力扣中等题废话不多说接下面我就浅浅分析下这个题吧我一定能给你讲明白的我们先来康康题目的
字符串循环右移

题目内容输入一个字符串和一个非负整数N 要求将字符串循环右移N次输入格式输入在第1行中给出一个字符串以表示结束
LVDS接口和LVDS技术

LVDS接口目前6 5寸及以上尺寸的液晶屏大多都是LVDS接口的了而LVDS接口的屏主要是应用于工控行业如下图就是LVDS接口的使用场景下图所示为五通道LVDS发送芯片 DS90C385 内部框图包含了四个数据信号其中包括RGB
Arduino 读取并数码显示车速传感器数

材料介绍 7 段显示器上的背板允许它使用 I2C 协议也称为两线接口由 Arduino 控制如果没有 I2C 背板您将必须直接控制每个数字的所有八个部分这将耗尽 Arduino 上的所有引脚或者您必须找出其他一些可能最终与 A
ubuntu安装zip工具解压zip压缩包，Package zip is not available, but is referred to by another package.

apt get install zip 今天在ubuntu进行zip安装的时候出现如下错误 Reading package lists Done Building dependency tree Done Package zip is n
Ubuntu16.04安装网卡驱动

1 根据电脑网卡型号查找对应的驱动 2 若是在Linux中安装驱动要注意内核版本 3 具体操作参考Ubuntu 16 04 手动安装无线网卡驱动连接WiFi
HarmonyOS 鸿蒙

HarmonyOS是一款面向未来面向全场景移动办公运动健康社交通信媒体娱乐等的分布式操作系统在传统的单设备系统能力的基础上 HarmonyOS提出了基于同一套系统能力适配多种终端形态的分布式理念能够支持多种终端设备通知
4-0 特征选择简述

第4章特征选择 4 0 特征选择简述请参考数据准备和特征工程中的相关章节调试如下代码 import pandas as pd df wine pd read csv home aistudio data data20527 win

4-0 特征选择简述

第4章 特征选择

4.0 特征选择简述

4-0 特征选择简述 的相关文章

随机推荐

热门标签

第4章特征选择

4-0 特征选择简述的相关文章