一网打尽目前常用的聚类方法，详细介绍了每一种聚类方法的基本概念、优点、缺点！！

2023-12-18 18:15:42

在这里插入图片描述

目前常用的聚类方法

1. K-均值聚类(K-Means Clustering)
2. 层次聚类(Hierarchical Clustering)
3. DBSCAN聚类(DBSCAN Clustering)
4. 谱聚类(Spectral Clustering)
5. 高斯混合模型(Gaussian Mixture Model, GMM)
6. DBA聚类(DBA Clustering)
总结

1. K-均值聚类(K-Means Clustering)

基本概念:将样本随机分配到k个中心点,计算每个样本到各个中心点的距离,将样本分配到距离最近的中心点形成一个新的簇,重新计算每个簇的中心点,重复此过程直至中心点位置不再改变。

优点:计算简单高效;易于实现。

缺点:需要预设簇数k,对异常值和属性范围敏感;无法处理非球形簇。

2. 层次聚类(Hierarchical Clustering)

基本概念:通过计算样本间的距离或相似度,采用自底向上或自顶向下的方式,逐步合并相似的样本点形成新的簇。

方法:单链聚类、完全链聚类、平均链聚类。

优点:无需预设簇数,结果以树状图清晰表达。

缺点:计算量大,对样本顺序敏感;无法修改早期错误决定。

3. DBSCAN聚类(DBSCAN Clustering)

基本概念:根据样本的局部密度来寻找高密度区域,将密度可达区域聚集为一个簇,低密度视为噪声。

优点:可以找到任意形状的簇,不需要预设簇数。

缺点:选择核函数和参数对结果影响大,计算量大。

4. 谱聚类(Spectral Clustering)

基本概念:构建相似矩阵,提取其特征向量,将样本投影到低维空间进行聚类。

优点:可以处理非球形簇,不需要预设簇数。

缺点:对异常点敏感,计算量大。

5. 高斯混合模型(Gaussian Mixture Model, GMM)

基本概念:假设所有样本来自多个高斯分布,通过EM算法估计每个分布的模型参数,将样本分到概率最大的高斯分布中。

优点:可以找到任意形状和大小的簇。

缺点:需要预设组件数,对参数敏感。

6. DBA聚类(DBA Clustering)

基本概念:通过构建样本间的相似矩阵,采用分块聚类算法,迭代更新每个样本的簇分配直至收敛。

优点:效率高,可以处理大数据。

缺点:需要预设簇数,结果依赖于初始化。

总结

除了以下聚类，K-均值聚类（K-Means Clustering），层次聚类（Hierarchical Clustering），DBSCAN聚类（DBSCAN Clustering），谱聚类（Spectral Clustering），高斯混合模型（Gaussian Mixture Model, GMM），DBA聚类（DBA Clustering），后期我还会补充目前最新的不变信息聚类 Invariant Information Clustering（IIC）被提出。IIC没有用传统聚类，而是对CNN稍作改动，用互信息最大化目标函数和双输入（two head）CNN的架构）。

文章来源:https://blog.csdn.net/qlkaicx/article/details/135065492
本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若内容造成侵权/违法违规/事实不符，请联系我的编程经验分享网邮箱：veading@qq.com进行投诉反馈，一经查实，立即删除！