Datamining数据挖掘-采样描述

  1. 数据处理(采样,描述,)

清华大学 数据挖掘:13.数据处理

数据处理(采样,描述,)

数据类型

  • (Continuous)连续型 (Real valuses)实数 eg 温度,高度,重量
  • (Discrete)离散型 (Integer values)整数 eg 人数
  • (Ordinal)序列型 (Rankings)排列 eg 等级={优 良 差},评分={高 中 低}
  • (Nominal)名词型 (Symbols)标签 eg 职业={老师 工人 白领 ....} ,颜色={红 绿 蓝...}
  • (String)字符串型 (text)文本数据 eg “Hello word”“by”“hi”

数据类型转换 (Data Transformation) eg:(名词形)颜色的编码 给颜色编码的同时,被动的定义了颜色间的距离,同时分类的时候决策边界的曲线也会有所不同。 eg:(名词形)颜色 转换成向量 好处是任两个颜色间距离相等,但不能允许太多颜色

采样 (Sampling) 读取硬盘上的海量数据时,IO花费很多时间。 1 采样是通过减少数据来减少时间(time complexity)。 2 采样还可以调整数据分配的不平衡 eg:男女比例

(Boundary Sampling) 对于大的数据集(大到跑不动的程度),边缘的点可能在分类中起到至关的作用,所以用采样来找出边缘点,从而减小数据集,最终节省时间 eg:边缘点只占5%

不平衡数据集 (Imbalanced datasets) 并非准确率越高越好? 因为整体准确率,不太适合不平衡的数据集(健康:生病=19:1) eg:分类器A判断所有人没病,正确率95%,因为世界上只有5%人生病 eg:分类器B 准确率是90%,

(G-mean, F-measure) 取代准确率Acc+,用于评价不平衡的数据集, 准确率(Precision),召回率(Recall) \[ \begin {align} \text{G-mean} &=\sqrt{(Acc^+ * Acc^-)}\\ &=\sqrt{\frac{TP}{TP+FN}*\frac{TN}{TN+FP}}\\\\ \text{F-measure}&=\frac{2\text{Precision}*\text{Recall}}{\text{Precision}+\text{Recall}}\\ \text{Precision}=&\frac{TP}{TP+FP},Recall=\frac{TP}{TP+FN} \end {align} \] ==(Over-Sampling)== 生成数据点,

数据标准化 (Normalization) 对于有明确上下界的数据v 映射到区间[0,1]: \[ v_1=\frac{v-min}{min+max}\\ \] 对于v~N(mu,sigma) 映射到区间N(0,1): \[ v_1=\frac{v-\mu}{\sigma} \] 均值・中位数・方差・频率 (Mean・Median・Variance・Mode) Mean:均值易受到特别大的数的影响,eg 中国人均很高高出老百姓的年收 Median:中位数,排中间的人 P(X<=median)=0.5 Variance:数据分散程度 Mode:出现频率最高的数据,可用于非数字型数据eg文本

相关 (correlation coefficient) eg:A:身高,B:体重 \[ r_{A, B}=\frac{\sum(A-\bar{A})(B-\bar{B})}{(n-1) \sigma_{A} \sigma_{B}}=\frac{\sum(A B)-n \bar{A} \bar{B}}{(n-1) \sigma_{A} \sigma_{B}} \] r>0:正相关,r<0:负相关 r=0:非线形相关!!!! 不是不相关!!!!!!!


转载请注明来源 https://tianweiye.github.io