Python
Java
PHP
IOS
Android
Nodejs
JavaScript
Html5
Windows
Ubuntu
Linux
缺失值填充4——使用线性模型(岭回归、Lasso回归、ElasticNet回归)填充序列缺失值
原始的问题可能是 一个X 包含x1 x2 缺失x x3 预测 gt y 模型填充缺失值 使用 x1 x2 x3 y 预测 gt 缺失x 算法思路 Lasso回归 在线性回归结尾加入绝对值和的正则化方法 L1正则 岭回归 在线性回归结尾加入平
特征工程
python
机器学习
算法
SMOTE过采样技术原理与实现
1 这种操作的原理是什么 目的是什么 目的是合成分类问题中的少数类样本 使数据达到平衡 其中 样本数量过少的类别称为 少数类 原理和思想 合成的策略是对每个少数类样本a 从它的最近邻中随机选一个样本b 然后在a b之间的连线上随机选一点作为
特征工程
缺失值填充5——AutoEncoder填充序列缺失值
AutoEncoder可以参考 pytorch实现基本AutoEncoder与案例 AutoEncoder填充缺失值的思路是 在完整的数据集上训练一个AutoEncoder 把有缺失的数据拿过来 先全零填充原有的值 再通过AutoEncod
python
pytorch神经网络
特征工程
Pytorch
机器学习
数字图像处理汇总(附实现代码)
包含所有代码的GitHub地址 https github com Code 0x00 pyCV 标题及连接 摘要 数字图像彩色空间 RGB HSV Lab CMYK 及其转换公式 灰度共生矩阵 GLCM 附Python代码 灰度共生矩阵的原
特征工程
点云的关键点检测-传统方法总结
三维点云的关键点检测可以通过以下步骤实现 1 寻找局部区域 从点云中选择一个局部区域 2 估计曲率和法线 对局部区域进行曲率估计 并计算法向量 3 计算关键点 使用曲率和法线信息来计算点云的关键点 这可以通过计算曲率极值点 曲率变化最大点或
3D视觉算法
3d
关键点检测
特征工程
三维视觉
特征选择 (feature_selection)
当数据预处理完成后 我们需要选择有意义的特征输入机器学习的算法和模型进行训练 通常来说 从两个方面考虑来选择特征 特征是否发散 如果一个特征不发散 例如方差接近于0 也就是说样本在这个特征上基本上没有差异 这个特征对于样本的区分并没有什么用
推荐系统
数据挖掘
特征选择
特征工程
[机器学习与scikit-learn-46]:特征工程-特征选择(降维)-2-常见的特征降维的方法大全
作者主页 文火冰糖的硅基工坊 文火冰糖 王文兵 的博客 文火冰糖的硅基工坊 CSDN博客 本文网址 https blog csdn net HiWangWenBing article details 123953894 目录 前言 第1章
机器学习与scikitlearn
scikitlearn
机器学习
特征工程
降维
特征筛选11——ExtraTrees筛选特征
算法简述 ExtraTrees 极度随机树 与随机森林 Random Forest 是一样的 都是决策树的集成模型 区别在于 分叉的方式 随机森林依据Gini或信息熵 ExtraTrees是随机 没错纯随机 随机的特征构建边 随机的阈值来分
特征工程
python
机器学习
决策树
算法
特征选择-过滤式选择
过滤式方法先按照某种规则对数据集进行特征选择 然后再训练学习器 特征选择过程与后续学习器无关 这相当于先用特征选择过程对初始特征进行 过滤 再用过滤后的特征来训练模型 某种规则 按照发散性或相关性对各个特征进行评分 设定阈值或者待选择阈值的
机器学习
特征工程
特征选择
过滤式选择
[机器学习与scikit-learn-49]:特征工程-特征选择(降维)-4-二级过滤-特征值与标签之间的关系:卡方过滤
作者主页 文火冰糖的硅基工坊 文火冰糖 王文兵 的博客 文火冰糖的硅基工坊 CSDN博客 本文网址 https blog csdn net HiWangWenBing article details 124073917 目录 前言 第1章
机器学习与scikitlearn
scikitlearn
机器学习
特征工程
特征提取
【机器学习】特征工程:时间特征构造以及时间序列特征构造(含源代码理解)
目录 特征工程 时间特征构造以及时间序列特征构造 一 前言 二 特征构造介绍 三 时间特征构造 3 1 连续值时间特征 3 2 离散值时间特征 3 2 1 时间特征拆解 3 2 2 时间特征判断 3 2 3 结合时间维度的聚合特征 四 时间
机器学习系列文章
特征工程
时间特征
python
不均衡数据集采样2——BorderlineSMOTE算法(过采样)
论文 Borderline SMOTE A New Over Sampling Method in Imbalanced Data Sets Learning https citeseerx ist psu edu viewdoc down
特征工程
python
机器学习
算法
特征工程——归一化处理不适用情况
哪些机器学习算法不需要做归一化 Normalization 处理 概率模型不需要归一化 因为它们不关心变量的值 而是关心变量的分布和变量之间的条件概率 如决策树 随机森林rf 而像AdaBoost svm Ir KNN KMeans之类的最
特征工程
python
大数据
算法
特征筛选3——卡方检验筛选特征(单变量筛选)
sklearn文档 https scikit learn org stable modules generated sklearn feature selection chi2 html 卡方检验只适用分类任务 用来检验特征与y是否相互独立
机器学习
特征工程
sklearn
python
人工智能
python pandas借助pandas-profiling自动生成EDA
安装方法 pip install pandas profiling github地址 https github com pandas profiling pandas profiling 示例代码 import numpy as np im
特征工程
python
机器学习
数据挖掘
特征选择-包裹式选择
包裹式选择与过滤式选择不考虑后续学习器不同 直接把最终使用的学习器的性能作为特征子集的评价准则 换言之 包裹式选择的目的就是为给定学习器选择最有利于其性能 量身定做 的特征子集 与过滤式选择的区别 包裹式选择方法直接针对给定学习器进行优化
机器学习
特征工程
特征选择
包裹式选择
特征筛选10——MIC最大信息系数(有监督筛选)
理论部分可以参考 https blog csdn net qq 27586341 article details 90603140 互信息也是通过衡量x与y的线性关系 来判断特征的重要性 整个算法的思路是 x与y构成二维平面 对平面进行切分
特征工程
python
机器学习
特征变换:特征归一化(Normalization)作用以及方法 Min-Max、Z-Score
为什么需要对特征数据进行归一化 1 在基于梯度下降的算法中 使用特征归一化方法将特征统一量纲 能够提高模型收敛速度和最终的模型精度 1 如上图所示 黄色的圈圈图代表的是两个特征的等高线 其中左图两个特征 X1 和 X2 的区间相差非常大 X
特征工程
机器学习
特征处理
归一化
机器学习——建筑能源得分预测
前言 编码之前是了解我们试图解决的问题和可用的数据 在这个项目中 我们将使用公共可用的纽约市的建筑能源数据 目标是使用能源数据建立一个模型 来预测建筑物的Enerqy Star Score 能源之星分数 并解释结果以找出影响评分的因素 数据
机器学习
特征工程
能源
数据分析
[机器学习与scikit-learn-48]:特征工程-特征选择(降维)-3-初级过滤:方差过滤法
作者主页 文火冰糖的硅基工坊 文火冰糖 王文兵 的博客 文火冰糖的硅基工坊 CSDN博客 本文网址 https blog csdn net HiWangWenBing article details 123970142 目录 前言 第1章
机器学习与scikitlearn
机器学习
scikitlearn
特征工程
特征提取
«
1
2
3
»