特征选取1-from sklearn.feature_selection import SelectKBest

2023-11-13

 

sklearn实战-乳腺癌细胞数据挖掘(博主亲自录制视频)

https://study.163.com/course/introduction.htm?courseId=1005269003&utm_campaign=commission&utm_source=cp-400000000398149&utm_medium=share

作者:知乎用户
链接:https://www.zhihu.com/question/28641663/answer/41653367
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

特征选择是特征工程中的重要问题(另一个重要的问题是特征提取),坊间常说:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。由此可见,特征工程尤其是特征选择在机器学习中占有相当重要的地位。
通常而言,特征选择是指选择获得相应模型和算法最好性能的特征集,工程上常用的方法有以下:
1. 计算每一个特征与响应变量的相关性:工程上常用的手段有计算皮尔逊系数和互信息系数,皮尔逊系数只能衡量线性相关性而互信息系数能够很好地度量各种相关性,但是计算相对复杂一些,好在很多toolkit里边都包含了这个工具(如sklearn的MINE),得到相关性之后就可以排序选择特征了;
2. 构建单个特征的模型,通过模型的准确性为特征排序,借此来选择特征,另外,记得JMLR'03上有一篇论文介绍了一种基于决策树的特征选择方法,本质上是等价的。当选择到了目标特征之后,再用来训练最终的模型;
3. 通过L1正则项来选择特征:L1正则方法具有稀疏解的特性,因此天然具备特征选择的特性,但是要注意,L1没有选到的特征不代表不重要,原因是两个具有高相关性的特征可能只保留了一个,如果要确定哪个特征重要应再通过L2正则方法交叉检验;
4. 训练能够对特征打分的预选模型:RandomForest和Logistic Regression等都能对模型的特征打分,通过打分获得相关性后再训练最终模型;
5. 通过特征组合后再来选择特征:如对用户id和用户特征最组合来获得较大的特征集再来选择特征,这种做法在推荐系统和广告系统中比较常见,这也是所谓亿级甚至十亿级特征的主要来源,原因是用户数据比较稀疏,组合特征能够同时兼顾全局模型和个性化模型,这个问题有机会可以展开讲。
6. 通过深度学习来进行特征选择:目前这种手段正在随着深度学习的流行而成为一种手段,尤其是在计算机视觉领域,原因是深度学习具有自动学习特征的能力,这也是深度学习又叫 unsupervised feature learning的原因。从深度学习模型中选择某一神经层的特征后就可以用来进行最终目标模型的训练了。
整体上来说,特征选择是一个既有学术价值又有工程价值的问题,目前在研究领域也比较热,值得所有做机器学习的朋友重视。

 

http://blog.csdn.net/ae5555/article/details/49534263

去除方差小的特征

设置一个方差阈值,没有达到这个方差阈值的特征都会被丢弃。 
VarianceThreshold,算法输入只要求特征(X),不需要输入结果(Y)。

from sklearn.feature_selection import VarianceThreshold 
X=[[feature1,feature2,…],…] 
sel=VarianceThreshold(threshold=xx) 
print(sel.fit_transform(X))

单变量特征选取

单变量特征提取的原理是分别计算每个特征的某个统计指标,根据该指标来选取特征。 
SelectKBest、SelectPercentile,前者选择排名前k个的特征,后者选择排名在前k%的特征。选择的统计指标需要指定,对于regression问题,使用f_regression指标;对于classification问题,可以使用chi2或者f_classif指标。

from sklearn.feature_selection import SelectKBest,chi2 
X_new=SelectKBest(chi2,k=2).fit_transform(test_X,test_Y)

  1. False Positive Rate,假阳性率
  2. chi2,卡方统计量,X中特征取值必须非负。卡方检验用来测度随机变量之间的依赖关系。通过卡方检验得到的特征之间是最可能独立的随机变量,因此这些特征的区分度很高。
循环特征选取

不单独地检验某个特征的价值,而是检验特征集的价值。对于一个数量为n的特征集合,子集的个数为2的n次方减一。通过指定一个学习算法,通过算法计算所有子集的error,选择error最小的子集作为选取的特征。

RFE

 


  1. 对初始特征集合中每个特征赋予一个初始权重。
  2. 训练,将权重最小的特征移除。
  3. 不断迭代,直到特征集合的数目达到预定值。 

 

from sklearn.svm import SVC 
from sklearn.feature_selection import RFE 
//X为样本集合,每个样本为一个数组,数组元素为各个特征值,Y样本的评分 
svc=SVC(kernel=”linear”,C=1) 
rfe=RFE(estimator=svc,n_features_to_select=5,step=1) 
X_new=rfe.fit_transform(X,Y)
RFECV

在RFE训练时,增加交叉验证。

L1-base

在线性回归模型中,每一个特征代表一个w,若得到的w系数等于或接近0,则说明这些特征不重要。 
LinearSVC 
参数C控制特征系数稀疏度,C的值越小,选择的特征数越少。

from sklearn.svm import LinearSVC 
X_new=LinearSVC(C=0.01,penalty=”l1”,dual=False).fit_transform(x,y)

决策树特征选取

通过决策树可以计算特征的重要性,抛弃不太重要的特性。

from sklearn.ensemble import ExtraTreesClassifier 
clf=ExtraTreesClassifier() 
X_new=clf.fit(x,y).transform(x) 
//各个特征重要性 
print(clf.feature_importances)

sklearn分类数据

sklearn.datasets.make_classification用来随机产生一个多分类问题。 
n_features=n_informative+n_redundant+n_repeated。 
n_clusters_per_class 每个分类的集群数

import sklearn.datasets 
(x,y)=make_classification(n_samples=, 
n_features=, 
n_informative=, 
n_redundant=, 
n_repeated=, 
n_classes=, 
random_state=, 
shuffle=False 
)

 

 

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

特征选取1-from sklearn.feature_selection import SelectKBest 的相关文章

  • 使用 urllib2 进行 Python 身份验证

    所以我尝试使用 python 从名为 vsearch cisco com 的网站下载文件 python Connects to the Cisco Server and Downloads files at the URL specifie
  • 如何读取通过追加行不断更新的文件?

    在我的终端中我正在运行 curl user dhelm 12345 https stream twitter com 1 1 statuses sample json gt raw data txt curl 的输出是实时流式 Twitte
  • 如何使 Django ManyToMany “直通”查询更加高效?

    我使用的是 ManyToManyField 和 through 类 这会在获取事物列表时产生大量查询 我想知道是否有更有效的方法 例如 这里有一些描述书籍及其几位作者的简化类 它们通过角色类 定义 编辑器 插画家 等角色 class Per
  • 如何在 kubernetes 上使多个 pod 相互通信

    我是 Kubernetes 新手 我正在尝试通过 microk8s 将应用程序部署到 Kubernetes 该应用程序包含Python Flask后端 Angular前端 Redis和MySQL数据库 我将映像部署在多个 Pod 中 状态显
  • 是否可以在 Sphinx 中隐藏 Python 函数参数?

    假设我有以下函数 该函数记录在Numpydoc 风格 https github com numpy numpy blob master doc HOWTO DOCUMENT rst txt 并且文档是自动生成的Sphinx http sph
  • Python Pandas 从宽到长的格式更改以及列标题拆分

    我有一个包含以下列标题和行示例的表 Subject Test1 Result1 Test1 Result2 Test2 Result1 Test2 Result2 0 John 10 0 5 20 0 3 我想将其改造成 Subject l
  • 检查多维 numpy 数组的所有边是否都是零数组

    n 维数组有 2n 个边 1 维数组有 2 个端点 2 维数组有 4 个边或边 3 维数组有 6 个 2 维面 4 维数组有 8 个边 ETC 这类似于抽象 n 维立方体发生的情况 我想检查 n 维数组的所有边是否仅由零组成 以下是边由零组
  • 导入错误:没有名为“wordcloud”的模块

    我正在努力将 wordcloud 安装到我的环境中 这是我正在运行的代码 import os import matplotlib pyplot as plt from wordcloud import WordCloud 我收到以下错误 I
  • __getitem__、__setitem__ 如何处理切片?

    我正在运行 Python 2 7 10 我需要拦截列表中的更改 我所说的 更改 是指在浅层意义上修改列表的任何内容 如果列表由相同顺序的相同对象组成 则列表不会更改 无论这些对象的状态如何 否则 它会更改 我不需要找出来how列表已经改变
  • 为什么我不能“string”.print()?

    我的理解print 在 Python 和 Ruby 以及其他语言 中 它是字符串 或其他类型 上的方法 因为它的语法非常常用 打印 嗨 works 那么为什么不呢 hi print 在 Python 中或 hi print在红宝石工作 当你
  • 直接打开Spyder还是通过Pythonxy打开?

    之前 我一直在运行PythonSpyder 我总是开始Spyder直接双击其图标 今天突然发现我还有一个东西叫Python x y 我注意到我也可以开始Spyder通过它 这两种方法有什么区别吗 如果不是的话 有什么意义Python x y
  • 获取 HTML 代码的结构

    我正在使用 BeautifulSoup4 我很好奇是否有一个函数可以返回 HTML 代码的结构 有序标签 这是一个例子 h1 Simple example h1 p This is a simple example of html page
  • 将查询参数添加到 URL

    我正在尝试自动从网站下载数据 我需要将动态参数传递到每天更改的站点 html 的结构是表格而不是表单 如何传递参数并从 url 获取结果 这是我尝试过的 它需要在 python 2 7 中 import urllib url https d
  • PyPI 上的轮子平台约束有什么限制吗?

    是否有任何地方 PEP 或其他地方 声明关于 Linux 轮子上传范围的限制 PyPI http pypi io 应该有 具体来说 上传是否被认为是可接受的做法linux x86 64轮子到 PyPI 而不是manylinux1 x86 6
  • Numpy 通过一个数组的值总结另一个数组

    我正在尝试找到一种矢量化方法来完成以下任务 假设我有一个 x 和 y 值的数组 请注意 x 值并不总是整数并且可以为负数 import numpy as np x np array 1 1 1 3 2 2 2 5 4 4 dtype flo
  • 使用 .map() 在 pandas DataFrame 中高效创建附加列

    我正在分析形状与以下示例类似的数据集 我有两种不同类型的数据 abc数据和xyz data abc1 abc2 abc3 xyz1 xyz2 xyz3 0 1 2 2 2 1 2 1 2 1 1 2 1 1 2 2 2 1 2 2 2 3
  • Python Flask应用程序无法被网络中的远程计算机访问

    我在本地主机上的 python 上运行了一个简单的 Flask Web 应用程序 Web 应用程序在 127 0 0 1 8000 上运行 但我无法使用 myHostComputerIPaddress 8000 从网络中的远程计算机访问它
  • 如何让 Python 找到 ffprobe?

    I have ffmpeg and ffprobe安装在我的 mac macOS Sierra 上 并且我已将它们的路径添加到 PATH 中 我可以从终端运行它们 我正在尝试使用ffprobe使用以下代码获取视频文件的宽度和高度 impor
  • 如何有效地计算另一列中每个元素的较大元素的数量?

    我有以下内容df name created utc 0 t1 cqug90j 1430438400 1 t1 cqug90k 1430438400 2 t1 cqug90z 1430438400 3 t1 cqug91c 143043840
  • Chrome + 另一个进程:进程间通信比 HTTP/XHR 请求更快?

    我有一个进程 1 对视频流进行实时图像处理 我需要在 Chrome 中的 HTML 页面中渲染该视频 同一台计算机上的进程 2 在canvas or img or videoHTML5 元素 由于我有 1000x1000 像素 x 3 字节

随机推荐

  • 【密码学】常见密码算法分类和运用

    一 摘要算法 Digest Algorithm 摘要算法 是指把任意长度的输入消息数据转化为固定长度的输出数据的一种密码算法 又称为 散列函数 哈希函数 杂凑函数 单向函数 等 通常用来做数据完整性的判定 即对数据进行哈希计算然后比较 摘要
  • UNIX环境编程——信号

    本期主题 信号 往期地址 UNIX环境编程 文件IO UNIX环境编程 标准IO UNIX环境编程 进程环境与进程控制 unix高级环境编程 线程详解 unix环境高级编程 UNIX体系架构 文章目录 1 信号概念 2 信号操作 1 发送信
  • JVM:内存结构

    文章目录 1 什么是JVM 2 内存结构 2 1 程序计数器 2 1 1 作用 2 1 2 特点 2 2 虚拟机栈 2 2 1 定义 2 2 2 代码示例 2 2 3 问题辨析 2 2 4 栈内存溢出 2 2 5 线程运行诊断 2 3 本地
  • web模块_2(SQL注入,上传文件的权限获取)

    1题目描述 你知道index php的备份文件名吗 index php的备份文件名为index php bak 2题目描述 php中 双等号是弱类型比较 判断是否相等 不判断格式 判断格式是否相等 0a 0为True 1235a 不算数字
  • CTFshow web5 解题思路

    开始将代码誊到visicode 进行审计 审计结果 一共分为四个if 满足四个条件就出现flag 第一个if的意思 判断两个值是否为空值 是空值就报错 第二个 顾名思义 如果v1不是纯字符就输出 v1 error 所以要让v1成为纯字符 第
  • 三十五、android adb命令详解

    cmd常用控制台1 清屏命令 cls2 列出当前目录详细信息 dir3 删除文件 del xxx txt android adb常用命令1 创建sdcardmksdcard 50M D sdcard img gt 创建一张容量为50M的SD
  • 微信小程序文字换行符

    在微信小程序开发中有一个需求是展示长文本 后端返回的数据包含了 n n let str 第一段 n n第二段 如果将这段文字直接赋值
  • Kali Linux-网络安全之-XSS 跨站脚本攻击原理及 DVWA 靶机的搭建

    XSS 跨站脚本攻击 使用 JavaScript 创建 Cookie JavaScript 可以使用 document cookie 属性来创建 读叏 及删除 cookie 例 1 JavaScript 中 创建 cookie 如下所示 d
  • Jupyter Lab入门到精通

    Jupyter Lab Jupyter Notebook Jupyter Lab可以理解成Jupyter Notebook的升级版本 升级增加了很多功能 其支持python R java等多种编程语言及markdown letex等写作语言
  • MATLAB学习笔记:

    MATLAB学习笔记 MATLAB 变量命名规则 变量名区分大小写 变量名长度不超过63位 变量名以字母开头 可以由字母 数字和下划线组成 但不能使用标点 变量名应简洁明了 通过变量名可以只管看出所表示的物理意义 ch5 C textsca
  • Pytorch基础学习(第一章-PyTorch基础概念)

    课程一览表 目录 一 pytorch简介 二 环境配置 1 pycharm 2 annaconda 3 安装pytorch
  • altium designer芯片引脚间距规则过小

    AD中芯片的引脚间距过小 例如stm32这种MCU 引脚又细又密 违反了默认间距规则 如上图所示的16mil 而触发绿色的报错 但是我们又不能因噎废食 而把整个PCB规则间距改大 因此最好的解决方案是 只修改这一个芯片的间距规则 依次点击
  • 云汉芯城js逆向分析-v,t,s参数

    介绍 查看搜索的接口 很明显需要这几个参数 keyword 2N7002 搜索输入的关键词 font ident 945a41f33fc9693c 如下图 第一次访问的页面 返回的html里找 v 1655799627669 时间戳 t 1
  • Android平台GB28181设备接入模块相关博客概览

    Android平台GB28181设备接入模块 可实现不具备国标音视频能力的 Android终端 通过平台注册接入到现有的GB T28181 2016服务 可用于如智能监控 智慧零售 智慧教育 远程办公 生产运输 智慧交通 车载或执法记录仪等
  • 从零开始 verilog 以太网交换机(六)帧处理单元设计与实现

    从零开始 verilog 以太网交换机 六 帧处理单元设计与实现 声明 博主主页 王 嘻嘻的CSDN主页 从零开始 verilog 以太网交换机系列专栏 点击这里 未经作者允许 禁止转载 侵权必删 关注本专题的朋友们可以收获一个经典交换机设
  • 数据结构——栈(stack)

    一 顺序栈 栈 stack 是一种运算受限的线性表 其限制是仅允许在表的一端进行插入和删除运算 这一端被称为栈顶 相对地 把另一端称为栈底 向一个栈插入新元素又称作进栈 入栈或压栈 它是把新元素放到栈顶元素的上面 使之成为新的栈顶元素 从一
  • java中如何从一个url的字符串中提取出ip、port等信息

    欢迎访问个人博客 德鲁大叔撸代码 项目中有一个功能是 把我生成的对账单推送到商户指定的sftp服务器上 要上传文件到sftp那必须的就有以下几个数据 sftp的ip sftp所指向的port sftp的用户名 sftp的密码 指定sftp上
  • 安装HP LaserJet 1320n打印机驱动

    该打印机型号比较老了 不是网络打印机 只能通过并口或USB安装 由于笔记本不带并口 现在台式机基本都不带了 只能选择USB安装 折腾了好久 才找到正确的安装方法 特分享给大家 首先 就是找到正确的驱动 我的笔记本是win8 64bit的 所
  • Ioc容器refresh总结(4)--- Spring源码从入门到精通(三十四 )

    上偏文章介绍了 registerBeanPostProcessor 分别按优先级顺序先注册PriorityOrdered和Ordered接口 第三部注册没有实现接口的beanPostProcessor 最后注册mergedBeanDefin
  • 特征选取1-from sklearn.feature_selection import SelectKBest

    sklearn实战 乳腺癌细胞数据挖掘 博主亲自录制视频 https study 163 com course introduction htm courseId 1005269003 utm campaign commission utm