Python
Java
PHP
IOS
Android
Nodejs
JavaScript
Html5
Windows
Ubuntu
Linux
数据分箱3——决策树分箱(有监督)
思路比较简单 将某一列数据作为训练集 将label作为结果 直接训练一个决策树 然后根据决策树的分裂节点的阈值作为分箱的依据 sklearn的决策树文档 https scikit learn org stable modules gener
特征工程
机器学习
决策树
sklearn
[机器学习与scikit-learn-50]:特征工程-特征选择(降维)-5-二级过滤-特征值与标签之间的关系:F过滤与互信息量法过滤
作者主页 文火冰糖的硅基工坊 文火冰糖 王文兵 的博客 文火冰糖的硅基工坊 CSDN博客 本文网址 https blog csdn net HiWangWenBing article details 124080785 目录 前言 第1章
机器学习与scikitlearn
机器学习
特征工程
互信息量
scikitlearn
特征筛选2——皮尔逊相关系数筛选(单变量筛选)
值域为正负1之间 用来筛查单变量与预测结果之间的相关关系 一般来讲 绝对值在0 0 1之间 无关 绝对值在0 1 0 3之间 弱相关关系 绝对值在0 3 0 6之间 存在相关关系 绝对值在0 6 0 9之间 强相关关系 绝对值大于0 9 几
python
机器学习
特征工程
开发语言
后端
机器学习之特征工程
1 为什么做特征工程 我们学习编程语言时被告知程序 数据结构 算法 那么对于机器学习 我认为也可以类比为机器学习 大数据 机器学习算法 运行平台 面对一个机器学习问题 一般有两种解题思路 传统机器学习算法或者深度学习算法 一般而言 传统机器
机器学习
特征工程
人工智能
特征工程之特征选择
特征工程是数据分析中最耗时间和精力的一部分工作 它不像算法和模型那样是确定的步骤 更多是工程上的经验和权衡 因此没有统一的方法 这里只是对一些常用的方法做一个总结 本文关注于特征选择部分 后面还有两篇会关注于特征表达和特征预处理 1 特征的
特征工程
【特征工程】特征选择与特征学习
特征选择与特征学习 在机器学习的具体实践任务中 选择一组具有代表性的特征用于构建模型是非常重要的问题 特征选择通常选择与类别相关性强 且特征彼此间相关性弱的特征子集 具体特征选择算法通过定义合适的子集评价函数来体现 在现实世界中 数据通常是
Machine Learning
特征工程
python使用t-sne算法降维,方便可视化
常用的降维算法有LDA PCA 但通常为了方便可视化 我们使用t sne降维算法 PCA的算法可以参考 异常检测2 PCA异常检测 t san的算法可以参考 t SNE算法 示例代码 import pandas as pd import m
特征工程
python
降维
缺失值填充2——python 热卡填充(Hot deck imputation)、冷卡填充(Cold deck imputation)
基本概念 热卡填充 在完整数据中找到一个与它最相似的对象 用最相似的值填充当前值 冷卡填充 通过其他途径找到能填充缺失部分的值 热卡填充其实就是使用KNN去预测的一种特殊形式 KNN是参考K个 而热卡填充是参考最近的1个 所以热卡填充可以用
特征工程
python
机器学习
开发语言
Python特征工程
文章目录 一 自动化EDA 二 准备工作 一 合并数据 二 groupby聚合观察数据特征 三 去重 四 按列排序 五 随机抽数 六 保存 创建 与拼接 七 转换数据格式 八 删除列 三 特征中的异常值处理 一 箱线图公式处理异常值 1 删
特征工程
python
大数据
人工智能
基于LendingClub数据的信贷分析和建模报告
一 课题分析 二 数据获取 三 数据探索 主要特征含义理解 特征分布 目标特征分布 分类变量的分布 连续数值特征分布 时序特征分布 文字特征分布 两两特征的协方差 四 数据预处理 数据集划分 特征缺失值识别与处理 严重缺失值的处理 缺失值填
python
逻辑回归
特征工程
风控
评分卡
特征筛选8——递归特征删除(REF)筛选特征(有监督筛选)
Recursive feature elimination RFE 是通过递归的删除一些特征 最终得到模型结果 RFE思路如下 首先借助模型训练所有特征 得到各个特征的权重 从权重最小的特征开始 删除特征后重新训练模型 得到除了被删特征外的
特征工程
python
机器学习
2022-02-08 读书笔记:《精通特征工程》1 基础特征工程
精通特征工程 速读学习1 基础特征工程 该系列文章系个人读书笔记及总结性内容 任何组织和个人不得转载进行商业活动 time 2022 02 08 学习目标 通过Python示例掌握特征工程基本原则和实际应用 增强机器学习算法效果 目录 第1
深度学习
学习
python
机器学习
特征工程
5、特征选择(filter):方差分析(ANOVA)
方差分析ANOVA特征筛选 一 方差分析 Analysis of Variance 简称ANOVA 基本原理 二 连续变量和离散变量的方差分析 2 1 提出假设 2 2 采集数据 2 3 设计统计量 2 4 事件发生概率计算与统计推断 三
特征工程
特征筛选9——根据重要性SelectFromModel筛选特征(有监督筛选)
策略思想 使用能够进行特征重要性评估的模型 一般带有feature importances或coef 参数 训练特征 如果结果重要性的得分小于阈值 就会被认为是不重要的特征比如小于0 1 mean 重要性 示例代码 import panda
特征工程
python
机器学习
数据预处理之重复值
目录 0 前言 1 重复值的识别 1 1 DataFrame识别重复值 duplicated 1 2 Serier识别重复值 is unique 2 统计重复行的数量 duplicated sum 3 重复值的处理 0 前言 在实际数据采集
Python学习
机器学习
数据分析
特征工程
不均衡数据集采样1——SMOTE算法(过采样)
SMOTE Synthetic Minority Over sampling Technique 论文地址 https www jair org index php jair article download 10302 24590 SMO
特征工程
python
机器学习
算法
数据预处理之缺失值
目录 0 前言 1 缺失值的识别 1 1 每个数据的识别 isnull 1 2 每列 行是否包含缺失值 isnull any isnull all 1 3 缺失值的个数 isnull sum 1 4 检查所有的数据 data info 1
机器学习
python
特征工程
数据处理
特征工程是什么?
特征工程是指对原始数据进行预处理和转换 以提取出对机器学习算法建模有用的特征的过程 特征工程是机器学习中非常重要的一步 它可以显著影响模型的性能 下面是一些常见的特征工程技术和方法 数据清洗 处理缺失值 异常值和重复值 确保数据的质量和完整
特征工程
人工智能
python
算法
特征工程(补充)--特征组合
特征组合变化也属于特征选择的一种手段 这部分工作可发挥的空间就看你的想像力和经验了 这里的组合变化远不限于把已有的特征加减乘除 比如Kernel Tricks之类 举个比较有想像力的例子 现在市面上社交网络里面 你可能认识的人 的推荐算法几
机器学习
特征工程
特征组合
特征工程(1)--特征工程是什么?
机器学习领域的大神Andrew Ng 吴恩达 老师曾说 Coming up with features is difficult time consuming requires expert knowledge Applied machin
机器学习
特征工程
1
2
3
»