集成学习Ensemble Learning
- Ensemble Learning
- Definition
- Common types of ensembles
- Bootstrap aggregating (Bagging)
- Boosting
- Stacking
- Bagging,Boosting的主要区别[^1]
Ensemble Learning
Definition
- 周志华对集成学习的定义:Ensemble Learning
“Ensemble learning is a machine learning paradigm where multiple learners are trained to solve the same problem. In contrast to ordinary machine learning approaches which try to learn one hypothesis from training data, ensemble methods try to construct a set of hypotheses and combine them to use.”
集成学习是一种基于多个训练器的结果获得最终结果的模型。比如随机森林模型就是一种典型的集成学习的方法。在随机森林中,构建n课树,根据所有树的结果获得最终的结果。
- 集成学习是一种有监督学习(supervised learning)
Common types of ensembles
集成学习的种类很多,这里只介绍三种最常见的类型,分别为Bagging,Boosting和Stacking。很多集成学习其实是这几种方法的变形,比如随机森林算法就是一种基于bagging的机器学习算法。
Bootstrap aggregating (Bagging)
bagging是一种又放回抽样的集成模型构建方法。典型的例子为随机森林模型。因为每次抽样都是独立的,所以可以实现并行运行。
- 从原始样本集中重复抽样n次(有放回的抽样),获得n个训练样本,样本之间是独立的
- 针对每个训练样本,计算统计量T
- 基于n个统计量T,计算出统计量的估计值和置信区间
Boosting
boosting是一种提升方法,每次训练时都会更加关注上一次训练中分类错误的模型。因此被认为是一种迭代的方法,每一步迭代都是一个弱分类器。与Bagging相比,Boosting的方法可能存在更大的过拟合的风险。
Stacking
Stacking是一种整合多种算法预测值结果的算法。比如Stacking算法可以结合Bagging和Boosting的结果。一般来说,Stacking具有比单一算法更好的结果。它适用于监督学习和非监督学习。
Bagging,Boosting的主要区别
- 样本选择上:Bagging采用的是Bootstrap随机有放回抽样;而Boosting每一轮的训练集是不变的,改变的只是每一个样本的权重。
- 样本权重:Bagging使用的是均匀取样,每个样本权重相等;Boosting根据错误率调整样本权重,错误率越大的样本权重越大。
- 预测函数:Bagging所有的预测函数的权重相等;Boosting中误差越小的预测函数其权重越大。
- 并行计算:Bagging各个预测函数可以并行生成;Boosting各个预测函数必须按顺序迭代生成。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)