Datamining数据挖掘-聚类问题

  1. 聚类(无监督学习)
    1. 分割类型的聚类
    2. 基于层次聚类
    3. 同一个簇
    4. 不同簇
    5. 应用
    6. 蓝图
    7. 要求
    8. 坐标缩放的影响
    9. 标准化的影响

清华大学 P36

聚类(无监督学习)

分割类型的聚类

(Partitiong Methods) (K-Means) 基于距离 (Sequential Leader) 基于序列 (Model Based Methods) 基于模型 (Density Based Methodes) 基于密度

基于层次聚类

(Hierarchical Methods)

同一个簇

(intra-Cluster) 同一类间距离应该很近

不同簇

(Inter-Cluster) 不同之间应该很远

应用

Marketing:客户划分 Earthquake Studies:震中的聚类 Social Networks:社交网络的聚类 Biology:发现生物上的相似特性 Image-Segmentation:图像分割

蓝图

(The Big Picture) 1-降维选,特征 2-定义相似度的度量,聚类

要求

(Requirements) 1-处理任意分布的数据 2-对噪点不敏感

坐标缩放的影响

(Scaling matters) 对y压缩,和对x压缩之后的结果截然不同 image-20200717152858309

标准化的影响

(Normalization or Not)

image-20200717153043801


转载请注明来源 https://tianweiye.github.io