集成学习 Ensemble learning
==机器学习体系== 监督:分类(单分类:SVM, DT, NN,多分类: Boosting, Bagging) 半监督: 非监督:聚类
==2类分类器== 决策树(Decision Trees), 神经网络(Neural Networks), 支持向量机(SVM)
==集成学习== (ensemble learning) 将多个单独的分类器集成起来, 同样的问题给不同的分类器做, 重点是:如何找分类器?如何合并?
==选择模型== (Model selection) 不同模型的结果都不一样。那么应用中用哪个模型更好呢? 集成学习中不做分类,而是所有分类器都要, 采用了将多个分类器取平均,来解决这个问题
==分而治之== (Divide and conquer) 可以用简单的分界面进行拟合复杂的分界面 不去生成复杂的分界面,而是生成简单分界面然后拟合
==Combiners== 如何把不同的分类器的结果结合?
- Voting:
- Majority Voting(少数服从多数):Random Forest
- Weighted Majority Voting(老板权重大):AdaBoost
- Learning Combiner:
- General Combiner:Stacking
- Pievewise Combiner:RegionBoost
==Diversity== 用不同的分类器来做集成 思想:偏向用相同模型(eg:都用DT)但用different
- Different Feature sets: 用30个特征训练一个,40个特征训练另一个
- Different Training sets:
- Different Parameters:
==Bootstrap Samples== 用不同Training sets训练分类器的时候, 如何保证每个分类器使用set中分布均匀 Bootstrap采样法可以保证每个样本集合中的分布相同 eg:原Training sets:5个球,分成3个新set: Set1:有放回从原Training sets取5个球 Set2:有放回从原Training sets取5个球 Set3:有放回从原Training sets取5个球
==弱分类器== (Weak Learners) 集成学习中可以用很弱的分类器来集成 eg:树桩(Stumps):只分两类
转载请注明来源 https://tianweiye.github.io