Datamining数据挖掘-集成分类器1

  1. 集成分类器

清华大学-数据挖掘-5.1 集成学习 清华大学-数据挖掘-5.1 Bagging

集成分类器

==引导聚集算法== (=Bagging算法=Bootstrap Aggregating) step1 用Bootstrap采样法,对原始样本集D采样生成50个样本集Di, step2 然后分别训练50个不同的分类器Ci step3 分类的时候进行投票,50个人说0的多就预测0,1的多就预测1 image-20200602235528998

==随机森林== (RF: Random Forest) 随机森林是Bagging的一个具体实例 :就是把很多决策树用bagging方法,组织在一起。 比如500颗?1000棵?哈哈哈疯了!

==随机森林-Main feature== 1 用booststrap将training set采样 思考:有n个样本,在组织新的样本集合的时候,有放回的取出n个样本 那么有多少原来样本会被取中呢?大概是2/3 n会被取中! \[ 1-\lim_{n \to +\infty}(1-\frac{1}{n}) ^n \approx \frac{2}{3}\\ \frac 1 n:被选中的概率,\\ 1-\frac{1}{n}:没被选中的概率\\ (1-\frac{1}{n}) ^n:n次没被选中的概率\\ 1-(1-\frac{1}{n}) ^n:被选中的概率\\ \] 2 每棵树的属性个数不一样, 比如一共有K个,但每棵树sqrt(K)个。 这样可以保证森林中的每棵树都不太一样


==Stacking== =可以理解为在Bagging的基础上加了权重 把每个分类器Ck的输出h_k(xi)作为输入, 添加权重再分类{h_1(xi), h_2(xi), h_k(xi) , yi} image-20200603012452374 算法: image-20200603012637547


转载请注明来源 https://tianweiye.github.io