机器学习系列文章

【机器学习】为什么需要对数值型的特征做归一化(Normalization)？

目录为什么需要对数值型的特征做归一化一概念定义二标准化归一化的原因用途 2 1 原因三数据归一化的影响四常用的3种归一化方法 4 1 归一化公式 4 1 1 线性归一化 Min Max Scaling 即我们一般指的归

机器学习系列文章 机器学习 标准化 归一化

【机器学习】多分类及多标签分类算法（含源代码）

目录多分类及多标签分类算法一单标签二分类问题 1 1 单标签二分类算法原理二单标签多分类问题 2 1 ovo 2 1 1 手写代码 2 1 2 调用API 2 2 ovr 2 2 1 手写代码 2 2 2 调用API 2 3 Ov

机器学习系列文章 分类 多分类 多标签

【机器学习】DBSCAN密度聚类算法（理论 + 图解）

文章目录一前言二 DBSCAN聚类算法三 DBSCAN算法步骤四算法的理解五常用评估方法轮廓系数一前言之前学聚类算法的时候有层次聚类系统聚类 K means聚类 K中心聚类最后呢被DBSCAN聚类算法迷上了

机器学习系列文章 聚类算法 机器学习 DBSCAN

【机器学习 & 深度学习】通俗讲解集成学习算法

目录集成学习一机器学习中的集成学习 1 1 定义 1 2 分类器 Classifier 1 2 1 决策树分类器 1 2 2 朴素贝叶斯分类器 1 2 3 AdaBoost算法 1 2 4 支持向量机 1 2 5 K近邻算法 1 3

深度学习笔记 机器学习系列文章 机器学习 算法 深度学习

【机器学习】多项式回归的思想以及在sklearn中使用多项式回归（含示例+代码）

一多项式回归回归在我们的日常生活中有着广泛的应用线性回归法有一个很大的局限性就是假设数据背后是存在线性关系的但是实际上具有线性关系的数据集是相对来说比较少的更多时候数据之间是具有的非线性的关系那么我们想要用线性回归法来对非

机器学习系列文章 机器学习 回归 sklearn 多项式回归

【机器学习】欠拟合与过拟合总结

目录欠拟合与过拟合总结一欠拟合与过拟合的概念二欠拟合产生的原因与解决方法三过拟合产生的原因与解决方法过拟合与欠拟合的区别在于欠拟合在训练集和测试集上的性能都较差而过拟合往往能较好地学习训练集数据的性质而在测试集上的性能

机器学习系列文章 欠拟合 过拟合

【sklearn】fit()、transform()和fit_transform()的区别

fit Method calculates the parameters mu and sigma and saves them as internal objects 解释简单来说就是求得训练集X的均值方差最大值以及最小值等这

机器学习系列文章 sklearn python 机器学习

【机器学习】噪声数据的理解

文章目录一噪声数据 1 1 分箱 1 2 回归 1 3 聚类 1 4 其他二数据清理作为一个过程 2 1 偏差检测 2 1 1 使用元数据关于数据的数据 2 1 2 编码格式存在使用不一致数据表示不一致 2 1 3 字段过载

机器学习系列文章 机器学习 噪声数据

【机器学习】机器学习知识点全面总结（监督学习+无监督学习）

目录机器学习知识点全面总结一监督学习 1 1 单模型 1 1 1 线性回归 1 1 2 逻辑回归 1 1 3 Lasso 1 1 4 K近邻 KNN 1 1 5 决策树 1 1 6 bp神经网络 1 1 7 支持向量机 SVM 1 1

机器学习系列文章 监督学习 无监督学习

【机器学习】模型评价指标中的召回率低的原因

1 样本标注时多数正样本被错误的标注为负样本这样模型学到正例的能力变弱这样正样本预测为负样本的同时负样本的精度也会减少方法一对错误的标注样本进行修正观察结果看是否有改变 2 一般情况下正负样本比列小于1 100 看到有的人说

机器学习系列文章 召回率

【机器学习】机器学习算法的随机数据生成

文章目录一前言二 numpy随机数据生成API 2 1 rand d 0 d 0 d0

机器学习系列文章 机器学习 python 随机数据 NumPy

【机器学习】特征工程：时间特征构造以及时间序列特征构造（含源代码理解）

目录特征工程时间特征构造以及时间序列特征构造一前言二特征构造介绍三时间特征构造 3 1 连续值时间特征 3 2 离散值时间特征 3 2 1 时间特征拆解 3 2 2 时间特征判断 3 2 3 结合时间维度的聚合特征四时间

机器学习系列文章 特征工程 时间特征 python

【机器学习】机器学习建模调参方法总结

文章目录一前言 1 1 数据来源 1 2 理论简介二知识总结 2 1 回归分析 2 2 长尾分布 2 3 欠拟合与过拟合 2 4 正则化 2 5 调参方法 2 5 1 贪心调参坐标下降 2 5 2 网格调参GridSearchCV

机器学习系列文章 机器学习 数据挖掘 调参

【机器学习】Yellowbrick 包的理解和说明

文章目录一介绍二 Visualizers 2 1 Classification Visualization 2 2 Clustering Visualization 2 3 Feature Visualization 2 4 Mode

机器学习系列文章 机器学习 Yellowbrick 分类回归

【机器学习】干货：计算两个向量之间相似性的方法（含源代码）

最近在做实验的时候需要计算两个向量之鉴的相似性该如何实现呢文章目录一余弦相似性 Cosine Similarity 1 1 理论 1 2 实践 1 2 1 文本处理 1 2 2 图像处理 1 2 3 推荐系统 1 2 4 聚类分析

深度学习笔记 机器学习系列文章 机器学习 人工智能 计算机视觉

【机器学习】Numpy手写机器学习算法，3万行代码！

目录 Numpy手写机器学习算法一前言二作者简介三项目总体介绍四手写 NumPy 全家福五项目示例一前言 NumPy 作为 Python 生态中最受欢迎的科学计算包很多读者已经非常熟悉它了它为 Python 提供

机器学习系列文章 NumPy 深度学习 算法 python

【机器学习】编码、创造和筛选特征

在机器学习和数据科学领域中特征工程是提取转换和选择原始数据以创建更具信息价值的特征的过程假设拿到一份数据集之后如何逐步完成特征工程呢文章目录一特性类型分析 1 1 数值型特征 1 2 类别型特征 1 3 时间型特征 1 4 文

机器学习系列文章 机器学习 人工智能 编码特征