Datamining数据挖掘-属性选择（进行中）

机器学习 Datamining

发布时间 : 2020-07-19 00:00

字数:699 阅读 :

特征选择

清华大学-数据挖掘-2.5 特征选择

特征选择

信息熵 （Entropy） 假设一个变量可以取2个值，量化取值的不确定性概率是0.5->熵最高->不确定概率是1.0->熵最低->确定 \[ X : \{a=\text{"non-smoker"},b=\text{"smoker"}\} \\ H(X)=-\sum_{i=1}^np(x_i)log_bp(x_i)\\ \]

性别的不确定性 对于一个人性别的不确定性=1 \[ S:\{x_1=\text{"男"} ，x_2=\text{"女"}\}\\ p(x_1)=0.5, p(x_2)=0.5\\ H(S)=-0.5log_20.5-0.5log_20.5=1 \]

信息增益 （Information gain） 因为知道了个体是否抽烟，所以性别的不确定减少了. 差值称为信息增益 \[ \text{Gain}(S,X)= H(S)-H(S|X)=0.4523 \]

冗余属性/独立属性 有些属性是可以由其他属性的线形结合，或者其他变形得到。所以这类冗余属性不需要重复记述

子集搜索 （Feature Subset Search） 20个属性组成的的集合里，找五个属性20C5=15504

分支界定法 （branch and bound） 子集搜索方法的一种。 1 用J(S)为一组属性S（含多个属性）打分。假设，属性越少分越低 2 如果某结点的分低于某个叶的分，那就不需要这个节点和其分支的属性 \[ S_1\supset S_2\supset S_3\Longrightarrow J(S_1)>J(S_2)>J(S_3) \]

最佳10个独立属性 （Top K Individual Features） 子集搜索方法的一种。 \[ J(X_k)=\{J(X_1),J(X_2),...,J(X_k)\}\\ \ J(X_1)>J(X_2)>...>J(X_k) \]

序列向前选择 SFS （Sequential Forward Selection） 子集搜索方法的一种。用贪婪算法，逐渐扩张属性集合，假设有两个最好的属性，然后找三个最好的，然后找四个最好的。 \[ J(X_k+x_1)>J(X_k+x_2)>...>J(X_k+x_{D-k})\\ x_i \in X_k \]

序列后退选择 SBS （Sequential Backward Selection） 子集搜索方法的一种。用贪婪算法（greedy algorithm）假设最开始有10个属性，然后试图删某一个，然后再删下一个，每次都删最好的 \[ J(X_k-x_1)>J(X_k-x_2)>...>J(X_k-x_{D-k})\\ x_i \in X_k \]

最优化算法 （Optmization Algorithms）模拟退火 Simulated Annealing 禁忌搜索 Tabu Search 遗传算法 Genetic Algorithms

转载请注明来源 https://tianweiye.github.io