Datamining数据挖掘-集成学习

机器学习 Datamining

发布时间 : 2020-07-19 00:00

字数:457 阅读 :

集成学习 Ensemble learning

清华大学-数据挖掘-5.1 最大间隔

集成学习 Ensemble learning

==机器学习体系== 监督：分类（单分类：SVM, DT, NN，多分类： Boosting, Bagging）半监督：非监督：聚类

==2类分类器== 决策树（Decision Trees），神经网络（Neural Networks），支持向量机（SVM）

==集成学习== （ensemble learning）将多个单独的分类器集成起来，同样的问题给不同的分类器做，重点是：如何找分类器？如何合并？

==选择模型== （Model selection）不同模型的结果都不一样。那么应用中用哪个模型更好呢？集成学习中不做分类，而是所有分类器都要，采用了将多个分类器取平均，来解决这个问题

==分而治之== （Divide and conquer）可以用简单的分界面进行拟合复杂的分界面不去生成复杂的分界面，而是生成简单分界面然后拟合

==Combiners== 如何把不同的分类器的结果结合？

Voting：
- Majority Voting（少数服从多数）：Random Forest
- Weighted Majority Voting（老板权重大）：AdaBoost
Learning Combiner：
- General Combiner：Stacking
- Pievewise Combiner：RegionBoost

==Diversity== 用不同的分类器来做集成思想：偏向用相同模型（eg：都用DT）但用different

Different Feature sets: 用30个特征训练一个，40个特征训练另一个
Different Training sets:
Different Parameters：

==Bootstrap Samples== 用不同Training sets训练分类器的时候，如何保证每个分类器使用set中分布均匀 Bootstrap采样法可以保证每个样本集合中的分布相同 eg：原Training sets：5个球，分成3个新set： Set1:有放回从原Training sets取5个球 Set2:有放回从原Training sets取5个球 Set3:有放回从原Training sets取5个球

==弱分类器== （Weak Learners）集成学习中可以用很弱的分类器来集成 eg：树桩（Stumps）：只分两类

转载请注明来源 https://tianweiye.github.io