Datamining数据挖掘-决策树

  1. Decision Making 决策树

[清华大学-数据挖掘-3.3 决策树][https://www.bilibili.com/video/BV154411Q7mG?p=22] 清华大学-数据挖掘-3.4 建树算法

Decision Making 决策树

决策树的描述 每一个节点都有一个属性,分到不能再分。 对于同一数据集决策树不唯一 image20200524003926263

树的好处 可以看出规则, eg:买过的人都没买 -> 质量有问题

选择属性的度量 对于属性S,有C种值,每种都有取的概率p_i 好属性的A的Information Gain多! 在已知属性A=”住在哪“以后,属性S=“是否买房”的不确定性降低了,这个幅度越大越好。 image-20200524022107719

实例 (Information Gain) S={买房,不买房}, District={城市,郊区,乡下}, Income={High,Low} 结论:对于推测S来讲,District是好属性 image-20200524023355044

ID3 算法 逐个地,将每个属性集分到(纯的结点)都是单独的属性,也有不纯但是分不了的可能。 注意分过的属性集合不用再分 1 选择属性 2 分 3 看分的纯不纯 4 继续选择属性 image-20200524024443896

过学习 Overfitting 2个分类器A和B A训练集的误差比B小,但B在测试集的误差比A小 这个时候说A是过学习了。高分低能

防止过学习 to prevent overfitting 1 不让树很长,长到一定长度就停下来 2 先长很大,再进行剪枝

剪枝 Pruning 剪枝的实质是合并。 最初剪枝会降低在测试时候的误差, 但是剪多了系统的表达力会下降,误差又回上升。 image-20200524025545564

Entropy Bias 有的属性不适合用来分类, 生日的Gain很大 算法会偏向选择生日来预测男女..... 主要因为这种属性分的类太细了。 eg:生日预测男女 只要每个人生日都不一样,用生日来判断班上同学的男女->准确率可可以100% 但是,这种属性没有意义,无法预测其他人

惩罚 to be penalized 给Information Gain加一个调整 分的细的属性惩罚要大 S=sex={男,女} A1=hobby={足球,电脑,折纸} C=3类->惩罚少 A2=birthday={1/1,1/2,... ,12/31} C=365类->惩罚多 image-20200524031849555

连续属性 阈值的选择 (Continuous Attributes)阈值(threshold)来离散化 最优的阈值出现在预测属性S变化的位置。 Temperature=[40, 90] S=GoTopaly={Yes, No} 离散化的温度属性 A=Temperature={[40, 50], {50, 90}} B=Temperature={[40, 85], {85, 90}} 根据Gain选择A,50当作阈值 Gain(S, A) >Gain(S, B) image-20200524032802522


转载请注明来源 https://tianweiye.github.io