4-2 过滤器法

2023-11-19

4.2 过滤器法

请参考《数据准备和特征工程》中的相关章节，调试如下代码。

注意：本节内容因为要耗费比较大的内存，在线平台有可能无法支持，可以下载到本地执行

基础知识

from sklearn.datasets import load_iris
from sklearn.feature_selection import SelectKBest   
from sklearn.feature_selection import chi2    

iris = load_iris()
X, y = iris.data, iris.target

# SelectKBest：过滤器类
# score_func=chi2: chi2一个统计指标函数：卡方检验

# k=2：表示取特征子集中的特征数量为2

skb = SelectKBest(score_func=chi2, k=2)    
result = skb.fit(X, y)   #训练模型

# 计算每个特征的X^2和P-values
# X^2越大，两个变量之间的偏差越大
# P-values越小，原假设发生的概率越小
print("X^2 is: ", result.scores_)
print("P-values is: ", result.pvalues_)

X^2 is:  [ 10.81782088   3.7107283  116.31261309  67.0483602 ]
P-values is:  [4.47651499e-03 1.56395980e-01 5.53397228e-26 2.75824965e-15]

# 利用模型对数据集X进行有监督的特征选择
X_new = skb.transform(X)
X_new.shape

(150, 2)

# 取前5行样本数据
X_new = skb.fit_transform(X, y)
X_new[:5, :]

array([[1.4, 0.2],
       [1.4, 0.2],
       [1.3, 0.2],
       [1.5, 0.2],
       [1.4, 0.2]])

import numpy as np

# 显示前5行样本数据对应的特征名称，下面是列表解析的用法
[iris.feature_names[np.where(X[0, :]==i)[0][0]] for i in X_new[0, :]]

['petal length (cm)', 'petal width (cm)']

iris.feature_names

['sepal length (cm)',
 'sepal width (cm)',
 'petal length (cm)',
 'petal width (cm)']

# 数据的第一列方差很小，为了不被移除，需要使用VarianceThreshold模块
X = np.array([[0, 0, 1], [0, 1, 0], [1, 0, 0], [0, 1, 1], [0, 1, 0], [0, 1, 1]]) 

from sklearn.feature_selection import VarianceThreshold 

# 0.8 * (1 - 0.8)：这是二项分布中的特例伯努利分布，0出现的概率将大于80%
# 方差的阈值为0.8*0.2，小于该值的特征将被移除（无监督的特征选择）

vt = VarianceThreshold(threshold=(0.8 * (1 - 0.8)))   
vt.fit_transform(X)

array([[0, 1],
       [1, 0],
       [0, 0],
       [1, 1],
       [1, 0],
       [1, 1]])

项目案例

import pandas as pd

data = pd.read_csv("data/data20531/santandar.csv")
data.shape

(76020, 371)

from sklearn.model_selection import train_test_split 
from sklearn.feature_selection import VarianceThreshold

# 划分训练集特征和测试集特征
train_features, test_features, train_labels, test_labels = train_test_split(
        data.drop(labels=['TARGET'], axis=1),
        data['TARGET'],
        test_size=0.2,
        random_state=41)

# 将特征的方差小于0.01的特征删除
qconstant_filter = VarianceThreshold(threshold=0.01)       
qconstant_filter.fit(train_features)  

# 不能将fit和transform合并为fit_transform
train_features = qconstant_filter.transform(train_features)  
test_features = qconstant_filter.transform(test_features)

train_features.shape, test_features.shape

((60816, 269), (15204, 269))

动手练习

# 第1题
import pandas as pd

data = pd.read_csv("data/data20531/santandar.csv")

from sklearn.model_selection import train_test_split 
from sklearn.feature_selection import VarianceThreshold

train_features, test_features, train_labels, test_labels = train_test_split(
    data.drop(labels=['TARGET'], axis=1),
    data['TARGET'],
    test_size=0.2,
    random_state=41)

# 移除“常数特征”：特征中所有的值都相同
constant_filter = VarianceThreshold(threshold=0)
constant_filter.fit(train_features)

train_features = constant_filter.transform(train_features)  
test_features = constant_filter.transform(test_features)

train_features.shape, test_features.shape

((60816, 332), (15204, 332))

# 第2题
import pandas as pd

data = pd.read_csv("data/data20531/santandar.csv")

from sklearn.model_selection import train_test_split 
from sklearn.feature_selection import VarianceThreshold

train_features, test_features, train_labels, test_labels = train_test_split(
    data.drop(labels=['TARGET'], axis=1),
    data['TARGET'],
    test_size=0.2,
    random_state=41)

# 矩阵转置
train_features_T = train_features.T  
print(train_features_T.shape)

# 重复特征数量
print(train_features_T.duplicated().sum())    

# 删除重复特征，并转置回原来的样子unique_features
unique_features = train_features_T.drop_duplicates(keep='first').T  
print(unique_features.shape)

#显示重复特征duplicated_features,列表解析
duplicated_features = [dup_col for dup_col in train_features.columns if dup_col not in unique_features.columns]  
duplicated_features

(370, 60816)
65
(60816, 305)

['ind_var2',
 'ind_var13_medio',
 'ind_var18',
 'ind_var26',
 'ind_var25',
 'ind_var27_0',
 'ind_var28_0',
 'ind_var28',
 'ind_var27',
 'ind_var29_0',
 'ind_var29',
 'ind_var32',
 'ind_var34',
 'ind_var37',
 'ind_var41',
 'ind_var39',
 'ind_var46_0',
 'ind_var46',
 'num_var13_medio',
 'num_var18',
 'num_var26',
 'num_var25',
 'num_var27_0',
 'num_var28_0',
 'num_var28',
 'num_var27',
 'num_var29_0',
 'num_var29',
 'num_var32',
 'num_var34',
 'num_var37',
 'num_var41',
 'num_var39',
 'num_var46_0',
 'num_var46',
 'saldo_var28',
 'saldo_var27',
 'saldo_var29',
 'saldo_var41',
 'saldo_var46',
 'delta_imp_trasp_var33_out_1y3',
 'delta_num_reemb_var13_1y3',
 'delta_num_reemb_var17_1y3',
 'delta_num_reemb_var33_1y3',
 'delta_num_trasp_var17_in_1y3',
 'delta_num_trasp_var17_out_1y3',
 'delta_num_trasp_var33_in_1y3',
 'delta_num_trasp_var33_out_1y3',
 'imp_amort_var18_hace3',
 'imp_amort_var34_hace3',
 'imp_reemb_var13_hace3',
 'imp_reemb_var33_hace3',
 'imp_trasp_var17_out_hace3',
 'imp_trasp_var33_out_hace3',
 'imp_trasp_var33_out_ult1',
 'num_var2_0_ult1',
 'num_var2_ult1',
 'num_reemb_var13_hace3',
 'num_reemb_var33_hace3',
 'num_trasp_var17_out_hace3',
 'num_trasp_var33_out_hace3',
 'num_trasp_var33_out_ult1',
 'saldo_var2_ult1',
 'saldo_medio_var13_medio_hace3',
 'saldo_medio_var13_medio_ult1']

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

CH3数据准备和特征工程

python

机器学习

sklearn

数据挖掘

4-2 过滤器法的相关文章

如何在Python中选择要写入(.csv)的列

import csv f csv reader open lmt csv r open input file for reading Date Open Hihh mLow Close Volume zip f s plit it into
Django 中的 Rpy2 错误 - 未为“”类型的对象定义转换“py2rpy”

我以前从未使用过 R 并且正在尝试使用 rpy2 从 python 调用 R 函数它可以在独立的 python 终端上运行但不能在 Django 中运行但rpy2似乎无法将python字符串转换为r对象我正在使用同事提供的自定义库
使用应用程序脚本将 MS Word 文件（保存在云端硬盘中）转换为 Google 文档

我被某些事情困住了找不到解决办法有没有办法使用文件 url 或 id 将存储在 Google Drive 中的 MS Word 文件转换为 Google 文档我目前有一个电子表格其中包含文件的网址或者也可以使用 python 脚
以矢量化方式在另一个 DataFrame 中查找包含值子集的行

如何匹配此 DataFrame 中的值source car id lat lon 0 100 10 0 15 0 1 100 12 0 10 0 2 100 09 0 08 0 3 110 23 0 12 0 4 110 18 0 32 0
matplotlib 中的 R 风格数据轴缓冲区

R 绘图自动设置 x 和 y 限制以在数据和轴之间留出一些空间我想知道 matplotlib 是否有办法自动执行相同的操作如果没有是否有一个好的公式或经验法则来说明 R 如何设置其轴限制在 matplotlib 中您可以通过
Django 模型字段默认基于另一个模型字段

我使用 Django Admin 构建一个管理站点有两张表一张是ModelA其中有数据另一个是ModelB里面什么也没有如果一个模型字段b b in ModelB为None 可以显示在网页上值为ModelA的场a b 我不知道该怎
如何使用 PyMongo 在重复键错误后继续插入

如果我需要在 MongoDB 中插入尚不存在的文档 db stock update one document set document upsert True 将完成这项工作如果我错了请随时纠正我但是如果我有一个文档列表并想将它们全
返回上个月的日期时间对象

如果 timedelta 在它的构造函数中有一个月份参数就好了那么最简单的方法是什么 EDIT 正如下面指出的那样我并没有认真考虑这一点我真正想要的是上个月的任何一天因为最终我只会获取年份和月份因此给定一个日期时间对象返回的最
在 Linux 上的 Python 中使用受密码保护的 Excel 工作表

问题很简单我每周都会收到一堆受密码保护的 Excel 文件我必须解析它们并使用 Python 将某些部分写入新文件我得到了文件的密码当在 Windows 上完成此操作时处理起来很简单我只需导入 win32com 并使用 clie
在谷歌云上训练神经网络时出现“无法获取路径的文件系统”错误

我正在使用 Google Cloud 在云上训练神经网络如下例所示 https cloud google com blog big data 2016 12 how to classify images with tensorflow u
Python 3在for循环中更改字典键的值不起作用

我的 python 3 代码没有按预期工作 def addFunc x y print x y def subABC x y z print x y z def doublePower base exp print 2 base exp d
uri 警告中缺少端口：使用 Python OpenCV cv2.VideoCapture() 打开文件时出错

当我尝试流式传输 ipcam 时出现了如下所示的错误 tcp 000000000048c640 uri 中缺少端口警告打开文件时出错 build opencv modules videoio src cap ffmpeg impl h
线性同余生成器 - 如何选择种子和统计检验

我需要做一个线性同余生成器它将成功通过所选的统计测试我的问题是如何正确选择发电机的数字以及我应该选择哪些统计检验我想均匀性的卡方频率测试每代收集10 000个号码的方法将 0 1 细分为10个相等的细分柯尔莫哥洛夫斯米尔
在python中读取PASCAL VOC注释

我在 xml 文件中有注释例如这个它遵循 PASCAL VOC 约定
更换壳牌管道[重复]

这个问题在这里已经有答案了在 subprocess 模块的 Python 2 7 文档中我找到了以下片段 p1 Popen dmesg stdout PIPE p2 Popen grep hda stdin p1 stdout stdo
Python 导入非常慢 - Anaconda python 2.7

我的 python import 语句变得非常慢我使用 Anaconda 包在本地运行 python 2 7 导入模块后我编写的代码运行得非常快似乎只是导入需要很长时间例如我使用以下代码运行了一个 tester py 文件 imp
如何使用 Pandas Series 绘制两个不同长度/开始日期的时间序列？

我正在绘制每周总事件的几个熊猫系列对象系列中的数据events per week看起来像这样 Datetime 1995 10 09 45 1995 10 16 63 1995 10 23 83 1995 10 30 91 1995
如何从 nltk 下载器中删除数据/模型？

我在 python3 NLTK 中安装了一些 NLTK 包通过nltk download 尝试过它们但不需要它们现在想删除它们我怎样才能删除例如包large grammars来自我的 NLTK 安装我不想删除完整的 NLTK 安装
在父类中访问子类变量

我有一个父类和一个继承的子类我想知道如何访问我的父类中的子类变量我尝试了这个但失败了 class Parent object def init self print x class Child Parent x 1 x Child Er
使用 SERVER_NAME 时出现 Flask 404

在我的 Flask 配置中我将 SERVER NAME 设置为 app example com 之类的域我这样做是因为我需要使用url for with external网址如果未设置 SERVER NAME Flask 会认为服务器

随机推荐

关于如何解决：Maven无法从aliyun仓库自动下载jar包（情况之一）

如果你出现修改Maven配置文件settings xml无法生效或者无法从aliyun仓库自动下载jar包的情况除了其他博主提出的情况与解决方案以外你如果还没有解决检查是否遇到以下情况最首先应当去aliyun官网 https de
C++之数据类型

数据类型可以分为基本数据类型和非基本数据类型 1 基本数据类型整型 int 布尔值类型 bool 浮点数类型 double 字符类型 char void类型 2 非基本数据类型指针类型 type 数组类型 type 引用类型 do
1028 人口普查 (20分)）（C语言）

1028 人口普查 20分某城镇进行人口普查得到了全体居民的生日现请你写个程序找出镇上最年长和最年轻的人这里确保每个输入的日期都是合法的但不一定是合理的假设已知镇上没有超过 200 岁的老人而今天是 2014 年 9 月 6
计算机修改桌面图标大小,windows更改桌面图标大小设置

对于windows系统使用不同的人有不同的使用习惯有些人不习惯windows桌面的默认图标大小想更改桌面图标大一些或小一些小编就遇到一个有高度近视的同事默认的桌面图标他根本看不清需要把眼睛贴近显示器才能看清所以他就需要把图标设
koa使用之node.js 文件加密与解密

利用node js的crypto模块实现文件加密解密代码加密函数 param text 需要加密的内容 param key 秘钥 returns Query 密文 function encode text key var secret
解释 RESTful API，以及如何使用它构建 web 应用程序

RESTful API stands for Representational State Transfer Application Programming Interface It is a set of principles and g
uniapp开发app原生子窗体subNvue的使用

用uniapp开发app的时候经常会有以下问题 1 覆盖原生导航栏 tabbar 的弹出层组件比如侧滑菜单盖不住地图视频原生导航栏比如 popup盖不住tabbar 2 弹出层内部元素可滚动 3 在map video等组件上的添加复
FPGA——按键消抖常用模板代码

模板如下 define UD 1 module key jitter input clkin input key in output key value output 15 0 tout inner signal reg 1 0 key i
Angular1.x 基础入门

一 Angular1 x概述致力于单页面应用 single page application 不直接操作DOM元素数据驱动为核心以操作数据完成页面的一系列二 Angular1 x特点 MVC MVC模式 Model 模型业务数据
ts(TypeScript)常用语法(Omit、Pick、Partial、Required)

ts TypeScript 常用语法比如有一个联系人列表 export interface Contact name string 姓名 phone string 手机号 email string 邮箱 avatar string 头像
appium根据屏幕大小滑动界面driver.get_window_size()、driver.swipe（）

driver get window size 获取屏幕的宽高 driver swipe 从坐标1滑动到坐标2 t毫秒时间内完成上下滑动时坐标的x值可以不变只改变坐标y值的大小左右滑动时坐标的y值可以不变只改变坐标x值的大小上
分布式系统与微服务的区别是什么？

分布式系统和微服务是两个相关但不同的概念它们都是在构建复杂的软件应用时使用的架构思想分布式系统分布式系统是指由多个独立的计算机或服务器通过网络连接共同工作协同完成一个任务或提供一个服务在分布式系统中各个计算机节点可以分担任务的负
“华为杯”研究生数学建模竞赛2019年-【华为杯】D题：汽车行驶工况构建（附获奖论文和MATLAB代码实现）

目录摘要 1 问题重述 2 模型假设 2 1 题目对模型给出的假设
Qt核心特性之 —— 「信号(Signal)与槽(Slot)」机制

目录 1 Qt 与 Qt Creator简介 2 关于引用头文件的一些事儿 3 信号 Signal 与槽 Slot 机制 3 1 一个小例子 4 自定义信号与槽 4 1 运行效果 5 信号与槽的特性 6 Qt 4 版本以前 connect
linux 如何创建卷组

1 创建一个物理卷 Pvcreate dev sd1 dev sd2 dev sd3 dev sd4 2 用刚才创建的物理卷创建一个卷组 Vgcreate 卷组名 dev sd1 dev sd2 dev sd3 dev sd4 3 创建逻辑
第四章：树形结构的关联式容器（map+set）

系列文章目录文章目录系列文章目录前言 1 关联式容器与序列式容器 1 1 键值对 2 set的介绍 3 multiset的介绍 3 1 接口count与容器multiset 4 map的介绍 4 1 接口insert 4 2 oper
MySQL 报错 [ERROR] [FATAL] InnoDB: Table flags are 0 in the data dictionary but the flags in file

本地装了 Wamp 的环境启动时 MySQL 启动失败查看启动失败的日志日志如下 2021 08 21T12 46 57 183482Z 0 ERROR FATAL InnoDB Table flags are 0 in the da
nodejs学习-----封装异步API，学习回调函数

1 回调函数学习回调函数定义使用者自己定义一个函数实现这个函数的程序内容然后把这个函数入口地址作为参数传入别人或系统的函数中由别人或系统的函数在运行时来调用的函数函数是你实现的但由别人或系统的函数在运行时通过参
left join on多表关联_2周零基础搞定SQL——多表查询

在上一篇文章里我们学习了SQL的复杂查询但是依然只是针对一个表的但在实际工作中我们需要的数据往往分布在多个表中所以为了更好的解决工作中的实际问题今天我们一起来学习如何用SQL进行多表查询吧 1 表的加法在之前的学习中我们建
4-2 过滤器法

4 2 过滤器法请参考数据准备和特征工程中的相关章节调试如下代码注意本节内容因为要耗费比较大的内存在线平台有可能无法支持可以下载到本地执行基础知识 from sklearn datasets import load iri

4-2 过滤器法

4.2 过滤器法

基础知识

项目案例

动手练习

4-2 过滤器法 的相关文章

随机推荐

热门标签

4-2 过滤器法的相关文章