Datamining数据挖掘-集成学习

  1. 集成学习 Ensemble learning

清华大学-数据挖掘-5.1 最大间隔

集成学习 Ensemble learning

==机器学习体系== 监督:分类(单分类:SVM, DT, NN,多分类: Boosting, Bagging) 半监督: 非监督:聚类 image-20200602224017992

==2类分类器== 决策树(Decision Trees), 神经网络(Neural Networks), 支持向量机(SVM)

==集成学习== (ensemble learning) 将多个单独的分类器集成起来, 同样的问题给不同的分类器做, 重点是:如何找分类器?如何合并? image-20200602224526258

==选择模型== (Model selection) 不同模型的结果都不一样。那么应用中用哪个模型更好呢? 集成学习中不做分类,而是所有分类器都要, 采用了将多个分类器取平均,来解决这个问题 image-20200602225011471

==分而治之== (Divide and conquer) 可以用简单的分界面进行拟合复杂的分界面 不去生成复杂的分界面,而是生成简单分界面然后拟合

==Combiners== 如何把不同的分类器的结果结合?

  • Voting:
    • Majority Voting(少数服从多数):Random Forest
    • Weighted Majority Voting(老板权重大):AdaBoost
  • Learning Combiner:
    • General Combiner:Stacking
    • Pievewise Combiner:RegionBoost

==Diversity== 用不同的分类器来做集成 思想:偏向用相同模型(eg:都用DT)但用different

  • Different Feature sets: 用30个特征训练一个,40个特征训练另一个
  • Different Training sets:
  • Different Parameters:

==Bootstrap Samples== 用不同Training sets训练分类器的时候, 如何保证每个分类器使用set中分布均匀 Bootstrap采样法可以保证每个样本集合中的分布相同 eg:原Training sets:5个球,分成3个新set: Set1:有放回从原Training sets取5个球 Set2:有放回从原Training sets取5个球 Set3:有放回从原Training sets取5个球

==弱分类器== (Weak Learners) 集成学习中可以用很弱的分类器来集成 eg:树桩(Stumps):只分两类


转载请注明来源 https://tianweiye.github.io