K-means 算法简介

2023-12-22 15:39:49

聚类算法是无监督学习算法.

无监督就是事先并不需要知道数据的类别标签，而只是根据数据特征去学习，找到相似数据的特征，然后把已知的数据集划分成不同的类别。

K-means 算法

对于n个样本点来说，根据距离公式（如欧式距离）去计算它们的远近，距离越近越相似。按照这样的规则，我们把它们划分到 K 个类别中，让每个类别中的样本点都是最相似的。

聚类就是相似度很高的样本点的集合.

聚类中心，也就是质心（Centroid）, 每个质心的坐标就是这个聚类的所有样本点的中心点，也就是均值。

K 值的确定，一般来说要取决于个人的经验和感觉，没有一个统一的标准。

第一步，随机选取任意 K 个数据点作为初始质心；
第二步，分别计算数据集中每一个数据点与每一个质心的距离，数据点距离哪个质心最近，就属于哪个聚类；
第三步，在每一个聚类内，分别计算每个数据点到质心的距离，取均值作为下一轮迭代的质心；
第四步，如果新质心和老质心之间的距离不再变化或小于某一个阈值，计算结束。

RFM

RFM 作为用户价值划分的经典模型，就可以解决这种分群的问题，RFM 是客户分析及衡量客户价值的重要模型之一。其中，R 表示最近一次消费（Recency），F 表示消费频率（Frequency），M 表示消费金额（Monetary）。

R (Recency) 客户最近一次交易时间的间隔
- 评估用户忠诚度
F (Frequency) 客户最近一段时间内交易的次数
- 评估用户活跃度
M (Monetary) 客户最近一段时间内的金额
- 评估用户价值度

客户分类:

重要价值客户 - R 高 - F 高 - M 高
重要发展客户 - R 高 - F 低 - M 高
重要保持客户 - R 低 - F 高 - M 高
重要挽留客户 - R 低 - F 低 - M 高
一般价值客户 - R 高 - F 高 - M 低
一般发展客户 - R 高 - F 低 - M 低
一般保持客户 - R 低 - F 高 - M 低
一般挽留客户 - R 低 - F 低 - M 低

文本聚类

文本聚类：根据文档内容或主题对文档进行聚类。

售前辅助：根据用户的通话、短信和在线留言等信息，结合用户个人资料，帮助公司在售前对客户做更多的预测。
风险监测：在金融风控场景中，在没有先验知识的情况下，通过无监督方法对用户行为做异常检测。

K-means 聚类算法的优点:

程序容易实现
运算效率高
可解释性强
能处理绝大多数聚类问题
不需要样本的标注信息 (无监督学习)

K-means 聚类算法的缺点:

不能利用样本的标注信息, 准确度比不上监督类算法
受噪声影响较大

K-means 聚类算法的适用数据样本:

值型数据
- K-means 算法主要适用于数值型数据，因为它通过计算数据点之间的距离来确定簇中心。这使得它对于数值特征的数据，如身高、重量、温度等，非常有效。
连续型数据
- K-means 在处理连续型数据方面表现良好。对于具有相对均匀分布的数据，K-means 聚类能够有效地将数据点分配到簇中。
凸形簇
- K-means 对于凸形簇（球形或近似球形的簇）的数据效果最好。如果数据呈现类似圆形或球形的分布，K-means 能够很好地识别并形成紧凑的簇。
相对均匀大小的簇
- K-means 对簇的大小和形状敏感，因此适合处理相对均匀大小的簇。如果簇的大小差异很大，可能需要使用其他聚类算法。
数据不包含噪声
- K-means 对噪声敏感，因此在数据中包含大量噪声或异常值时，可能会对聚类结果产生不良影响。在这种情况下，可能需要先对数据进行清理或考虑使用对噪声更为鲁棒的聚类算法。
数据分布相对均匀
- K-means 假设簇的几何形状相对均匀，因此对于分布较为均匀的数据效果较好。对于非均匀分布的数据，可能需要考虑其他聚类算法。

K-means 聚类算法的案例:

市场细分
- K-means 可以用于对市场进行细分，帮助企业理解不同市场细分的特点和需求，以制定更有针对性的市场策略。
客户分群
- 在营销领域，K-means 可以用于将客户分成不同的群组，根据他们的购买行为、偏好和特征制定个性化的营销策略。
图像压缩
- K-means 被用于图像压缩，通过将图像中的颜色聚类成几个中心，可以实现图像的有损压缩，减少颜色数量而保持图像的主要特征。
新闻主题分类
- K-means 可以用于对新闻文章进行主题分类。通过聚类相似的文章，可以帮助用户更轻松地浏览并找到感兴趣的主题。
网络攻击检测
- 在网络安全领域，K-means 被用于检测异常网络流量，通过聚类正常和异常的网络行为，识别潜在的网络攻击。
基因表达数据分析
- 在生物信息学中，K-means 被应用于基因表达数据的分析，以发现基因表达模式，识别不同基因表达簇。
地理位置分析
- K-means 可以用于地理位置数据的聚类，例如根据商店的地理位置将城市划分为商业区、住宅区等，有助于空间分析和规划。
商品库存管理
- 在零售业中，K-means 可以用于对商品进行聚类，帮助进行库存管理和优化供应链。

文章来源:https://blog.csdn.net/galoiszhou/article/details/135153031
本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若内容造成侵权/违法违规/事实不符，请联系我的编程经验分享网邮箱：veading@qq.com进行投诉反馈，一经查实，立即删除！

K-means 算法 简介

K-means 算法

RFM

文本聚类

K-means 算法简介