Datamining数据挖掘-属性选择(进行中)

  1. 特征选择

清华大学-数据挖掘-2.5 特征选择

特征选择

信息熵 (Entropy) 假设一个变量可以取2个值, 量化取值的不确定性 概率是0.5->熵最高->不确定 概率是1.0->熵最低->确定 \[ X : \{a=\text{"non-smoker"},b=\text{"smoker"}\} \\ H(X)=-\sum_{i=1}^np(x_i)log_bp(x_i)\\ \]

性别的不确定性 对于一个人性别的不确定性=1 \[ S:\{x_1=\text{"男"} ,x_2=\text{"女"}\}\\ p(x_1)=0.5, p(x_2)=0.5\\ H(S)=-0.5log_20.5-0.5log_20.5=1 \]

知道是否抽烟后,性别的不确定性 分别计算烟民中,非烟民中的男女的概率 然后计算烟民中的熵,非烟民中的熵 H(S|X)比H(S)最开始少了。 \[ p(S=男|X=抽)=0.8\\ p(S=女|X=抽)=0.2\\ H(S|X=抽)=-0.8log_20.8-0.2log_20.2=0.7219\\ p(S=男|X=不抽)=0.05\\ p(S=女|X=不抽)=0.95\\ H(S|X=不抽)=-0.05log_20.05-0.95log_20.95=0.2864\\ p(X=抽)=0.6\\ p(X=不抽)=0.4\\ H(S|X)=0.6 H(S|X=抽) +0.4 H(S|X=不抽)=0.5477 \]

信息增益 (Information gain) 因为知道了 个体 是否抽烟, 所以性别的不确定减少了. 差值称为信息增益 \[ \text{Gain}(S,X)= H(S)-H(S|X)=0.4523 \]

冗余属性/独立属性 有些属性是可以由其他属性的线形结合,或者其他变形得到。 所以这类冗余属性不需要重复记述

子集搜索 (Feature Subset Search) 20个属性组成的的集合里,找五个属性20C5=15504

分支界定法 (branch and bound) 子集搜索方法的一种。 1 用J(S)为一组属性S(含多个属性)打分。假设,属性越少分越低 2 如果某结点的分 低于某个叶的分,那就不需要这个节点和其分支的属性 image-20200524015014466 \[ S_1\supset S_2\supset S_3\Longrightarrow J(S_1)>J(S_2)>J(S_3) \]

最佳10个独立属性 (Top K Individual Features) 子集搜索方法的一种。 \[ J(X_k)=\{J(X_1),J(X_2),...,J(X_k)\}\\ \ J(X_1)>J(X_2)>...>J(X_k) \]

序列向前选择 SFS (Sequential Forward Selection) 子集搜索方法的一种。 用贪婪算法,逐渐扩张属性集合, 假设有两个最好的属性,然后找三个最好的,然后找四个最好的。 \[ J(X_k+x_1)>J(X_k+x_2)>...>J(X_k+x_{D-k})\\ x_i \in X_k \]

序列后退选择 SBS (Sequential Backward Selection) 子集搜索方法的一种。 用贪婪算法(greedy algorithm) 假设最开始有10个属性,然后试图删某一个,然后再删下一个,每次都删最好的 \[ J(X_k-x_1)>J(X_k-x_2)>...>J(X_k-x_{D-k})\\ x_i \in X_k \]

最优化算法 (Optmization Algorithms) 模拟退火 Simulated Annealing 禁忌搜索 Tabu Search 遗传算法 Genetic Algorithms


转载请注明来源 https://tianweiye.github.io