特征工程

缺失值填充4——使用线性模型（岭回归、Lasso回归、ElasticNet回归）填充序列缺失值

原始的问题可能是一个X 包含x1 x2 缺失x x3 预测 gt y 模型填充缺失值使用 x1 x2 x3 y 预测 gt 缺失x 算法思路 Lasso回归在线性回归结尾加入绝对值和的正则化方法 L1正则岭回归在线性回归结尾加入平

特征工程 python 机器学习 算法

SMOTE过采样技术原理与实现

1 这种操作的原理是什么目的是什么目的是合成分类问题中的少数类样本使数据达到平衡其中样本数量过少的类别称为少数类原理和思想合成的策略是对每个少数类样本a 从它的最近邻中随机选一个样本b 然后在a b之间的连线上随机选一点作为

特征工程

缺失值填充5——AutoEncoder填充序列缺失值

AutoEncoder可以参考 pytorch实现基本AutoEncoder与案例 AutoEncoder填充缺失值的思路是在完整的数据集上训练一个AutoEncoder 把有缺失的数据拿过来先全零填充原有的值再通过AutoEncod

python pytorch神经网络 特征工程 Pytorch 机器学习

数字图像处理汇总（附实现代码）

包含所有代码的GitHub地址 https github com Code 0x00 pyCV 标题及连接摘要数字图像彩色空间 RGB HSV Lab CMYK 及其转换公式灰度共生矩阵 GLCM 附Python代码灰度共生矩阵的原

特征工程

点云的关键点检测-传统方法总结

三维点云的关键点检测可以通过以下步骤实现 1 寻找局部区域从点云中选择一个局部区域 2 估计曲率和法线对局部区域进行曲率估计并计算法向量 3 计算关键点使用曲率和法线信息来计算点云的关键点这可以通过计算曲率极值点曲率变化最大点或

3D视觉算法 3d 关键点检测 特征工程 三维视觉

特征选择 (feature_selection)

当数据预处理完成后我们需要选择有意义的特征输入机器学习的算法和模型进行训练通常来说从两个方面考虑来选择特征特征是否发散如果一个特征不发散例如方差接近于0 也就是说样本在这个特征上基本上没有差异这个特征对于样本的区分并没有什么用

推荐系统 数据挖掘 特征选择 特征工程

[机器学习与scikit-learn-46]：特征工程-特征选择(降维)-2-常见的特征降维的方法大全

作者主页文火冰糖的硅基工坊文火冰糖王文兵的博客文火冰糖的硅基工坊 CSDN博客本文网址 https blog csdn net HiWangWenBing article details 123953894 目录前言第1章

机器学习与scikitlearn scikitlearn 机器学习 特征工程 降维

特征筛选11——ExtraTrees筛选特征

算法简述 ExtraTrees 极度随机树与随机森林 Random Forest 是一样的都是决策树的集成模型区别在于分叉的方式随机森林依据Gini或信息熵 ExtraTrees是随机没错纯随机随机的特征构建边随机的阈值来分

特征工程 python 机器学习 决策树 算法

特征选择-过滤式选择

过滤式方法先按照某种规则对数据集进行特征选择然后再训练学习器特征选择过程与后续学习器无关这相当于先用特征选择过程对初始特征进行过滤再用过滤后的特征来训练模型某种规则按照发散性或相关性对各个特征进行评分设定阈值或者待选择阈值的

机器学习 特征工程 特征选择 过滤式选择

[机器学习与scikit-learn-49]：特征工程-特征选择(降维)-4-二级过滤-特征值与标签之间的关系：卡方过滤

作者主页文火冰糖的硅基工坊文火冰糖王文兵的博客文火冰糖的硅基工坊 CSDN博客本文网址 https blog csdn net HiWangWenBing article details 124073917 目录前言第1章

机器学习与scikitlearn scikitlearn 机器学习 特征工程 特征提取

【机器学习】特征工程：时间特征构造以及时间序列特征构造（含源代码理解）

目录特征工程时间特征构造以及时间序列特征构造一前言二特征构造介绍三时间特征构造 3 1 连续值时间特征 3 2 离散值时间特征 3 2 1 时间特征拆解 3 2 2 时间特征判断 3 2 3 结合时间维度的聚合特征四时间

机器学习系列文章 特征工程 时间特征 python

不均衡数据集采样2——BorderlineSMOTE算法（过采样）

论文 Borderline SMOTE A New Over Sampling Method in Imbalanced Data Sets Learning https citeseerx ist psu edu viewdoc down

特征工程 python 机器学习 算法

特征工程——归一化处理不适用情况

哪些机器学习算法不需要做归一化 Normalization 处理概率模型不需要归一化因为它们不关心变量的值而是关心变量的分布和变量之间的条件概率如决策树随机森林rf 而像AdaBoost svm Ir KNN KMeans之类的最

特征工程 python 大数据 算法

特征筛选3——卡方检验筛选特征（单变量筛选）

sklearn文档 https scikit learn org stable modules generated sklearn feature selection chi2 html 卡方检验只适用分类任务用来检验特征与y是否相互独立

机器学习 特征工程 sklearn python 人工智能

python pandas借助pandas-profiling自动生成EDA

安装方法 pip install pandas profiling github地址 https github com pandas profiling pandas profiling 示例代码 import numpy as np im

特征工程 python 机器学习 数据挖掘

特征选择-包裹式选择

包裹式选择与过滤式选择不考虑后续学习器不同直接把最终使用的学习器的性能作为特征子集的评价准则换言之包裹式选择的目的就是为给定学习器选择最有利于其性能量身定做的特征子集与过滤式选择的区别包裹式选择方法直接针对给定学习器进行优化

机器学习 特征工程 特征选择 包裹式选择

特征筛选10——MIC最大信息系数（有监督筛选）

理论部分可以参考 https blog csdn net qq 27586341 article details 90603140 互信息也是通过衡量x与y的线性关系来判断特征的重要性整个算法的思路是 x与y构成二维平面对平面进行切分

特征工程 python 机器学习

特征变换：特征归一化（Normalization）作用以及方法 Min-Max、Z-Score

为什么需要对特征数据进行归一化 1 在基于梯度下降的算法中使用特征归一化方法将特征统一量纲能够提高模型收敛速度和最终的模型精度 1 如上图所示黄色的圈圈图代表的是两个特征的等高线其中左图两个特征 X1 和 X2 的区间相差非常大 X

特征工程 机器学习 特征处理 归一化

机器学习——建筑能源得分预测

前言编码之前是了解我们试图解决的问题和可用的数据在这个项目中我们将使用公共可用的纽约市的建筑能源数据目标是使用能源数据建立一个模型来预测建筑物的Enerqy Star Score 能源之星分数并解释结果以找出影响评分的因素数据

机器学习 特征工程 能源 数据分析

[机器学习与scikit-learn-48]：特征工程-特征选择(降维)-3-初级过滤：方差过滤法

作者主页文火冰糖的硅基工坊文火冰糖王文兵的博客文火冰糖的硅基工坊 CSDN博客本文网址 https blog csdn net HiWangWenBing article details 123970142 目录前言第1章

机器学习与scikitlearn 机器学习 scikitlearn 特征工程 特征提取