标准化
结合归一化来谈标准化
如何处理数据中的缺失值?
特征选择原因
特征选择是什么 方差阈值第一个,删除低方差保留高方差,就是要保留不同的特征
fit_trasform() fit():计算待标准化数据的均值和方差等参数。 transform()的功能是对数据进行标准化。是将数据进行转换,比如数据的归一化和标准化,将测试数据按照训练数据同样的模型进行转换,得到特征向量。 fit_transform()的功能就是对数据先进行拟合处理,然后再将其进行标准化
PCA(主成分分析)是什么
我们应该怎么做? (1)算法是核心,数据和计算是基础
机器学习开发步骤
机器学习模型是什么
监督学习和非监督学习
分类问题
回归问题
测试集与训练集划分
特征工程—fit_transform转换器 1、实例化 (实例化的是一个转换器类(Transformer))(测试集用) 2、调用 fit_transform(对于文档建立分类词频矩阵,不能同时调用)(训练集用) 3、fit()计算平均值方差等,transform进行数据的转换
特征工程—估计器(预估器)
估计器的工作流程
分类算法-k 近邻算法(KNN)
优点:
缺点:
朴素贝叶斯分类优缺点
信息熵
信息增益
信息增益的计算
案例
DictVectorizer()可以非数值转化成数值,ont-hot编码
决策树的划分依据
决策树优缺点及改进
集成学习方法
集成学习通过建立几个模型组合的来解决单一预测问题。它的工作原理是生成多个分类 器/模型,各自独立地学习和作出预测。这些预测最后结合成单预测,因此优于任何一个单 分类的做出预测。
L1正则和L2的区别
scikit-learn和tensorflow优缺点
梯度下降和正规方程的区别
欠拟合原因以及解决办法
过拟合原因以及解决办法
L2正则化
逻辑回归是分类算法(解决二分类)
sigmoid函数
逻辑回归公式
LogisticRegression总结
面对一个机器学习问题,通常有两种策略 略。 一种是研发人员尝试各种模型,选择其中表 现最好的模型做重点调参优化。这种策略类似于奥运会比赛,通过强强竞争来选拔最优的运 动员,并逐步提高成绩。另一种重要的策略是集各家之长,如同贤明的君主广泛地听取众多 谋臣的建议,然后综合考虑,得到最终决策。后一种策略的核心,是将多个分类器的结果统 一成一个最终的决策。使用这 类策略的机器学习方法统称为集成学习。其中的每个单独的 分类器称为基分类器。
Boosting(串行)(迭代式学习)
Bagging(并行)
69. 集成学习的基本步骤 (1)找到误差互相独立的基分类器。 (2)训练基分类器。 (3)合并基分类器的结果。