K-means 算法 简介
2023-12-22 15:39:49
聚类算法是无监督学习算法.
无监督就是事先并不需要知道数据的类别标签,而只是根据数据特征去学习,找到相似数据的特征,然后把已知的数据集划分成不同的类别。
K-means 算法
对于n个样本点来说,根据距离公式(如欧式距离)去计算它们的远近,距离越近越相似。按照这样的规则,我们把它们划分到 K 个类别中,让每个类别中的样本点都是最相似的。
聚类就是相似度很高的样本点的集合.
聚类中心,也就是质心(Centroid), 每个质心的坐标就是这个聚类的所有样本点的中心点,也就是均值。
K 值的确定,一般来说要取决于个人的经验和感觉,没有一个统一的标准。
- 第一步,随机选取任意 K 个数据点作为初始质心;
- 第二步,分别计算数据集中每一个数据点与每一个质心的距离,数据点距离哪个质心最近,就属于哪个聚类;
- 第三步,在每一个聚类内,分别计算每个数据点到质心的距离,取均值作为下一轮迭代的质心;
- 第四步,如果新质心和老质心之间的距离不再变化或小于某一个阈值,计算结束。
RFM
RFM 作为用户价值划分的经典模型,就可以解决这种分群的问题,RFM 是客户分析及衡量客户价值的重要模型之一。其中 ,R 表示最近一次消费(Recency),F 表示消费频率(Frequency),M 表示消费金额(Monetary)。
- R (Recency) 客户最近一次交易时间的间隔
- 评估用户忠诚度
- F (Frequency) 客户最近一段时间内交易的次数
- 评估用户活跃度
- M (Monetary) 客户最近一段时间内的金额
- 评估用户价值度
客户分类:
- 重要价值客户 - R 高 - F 高 - M 高
- 重要发展客户 - R 高 - F 低 - M 高
- 重要保持客户 - R 低 - F 高 - M 高
- 重要挽留客户 - R 低 - F 低 - M 高
- 一般价值客户 - R 高 - F 高 - M 低
- 一般发展客户 - R 高 - F 低 - M 低
- 一般保持客户 - R 低 - F 高 - M 低
- 一般挽留客户 - R 低 - F 低 - M 低
文本聚类
文本聚类:根据文档内容或主题对文档进行聚类。
- 售前辅助:根据用户的通话、短信和在线留言等信息,结合用户个人资料,帮助公司在售前对客户做更多的预测。
- 风险监测:在金融风控场景中,在没有先验知识的情况下,通过无监督方法对用户行为做异常检测。
K-means 聚类算法的优点:
- 程序容易实现
- 运算效率高
- 可解释性强
- 能处理绝大多数聚类问题
- 不需要样本的标注信息 (无监督学习)
K-means 聚类算法的缺点:
- 不能利用样本的标注信息, 准确度比不上监督类算法
- 受噪声影响较大
K-means 聚类算法的适用数据样本:
- 值型数据
- K-means 算法主要适用于数值型数据,因为它通过计算数据点之间的距离来确定簇中心。这使得它对于数值特征的数据,如身高、重量、温度等,非常有效。
- 连续型数据
- K-means 在处理连续型数据方面表现良好。对于具有相对均匀分布的数据,K-means 聚类能够有效地将数据点分配到簇中。
- 凸形簇
- K-means 对于凸形簇(球形或近似球形的簇)的数据效果最好。如果数据呈现类似圆形或球形的分布,K-means 能够很好地识别并形成紧凑的簇。
- 相对均匀大小的簇
- K-means 对簇的大小和形状敏感,因此适合处理相对均匀大小的簇。如果簇的大小差异很大,可能需要使用其他聚类算法。
- 数据不包含噪声
- K-means 对噪声敏感,因此在数据中包含大量噪声或异常值时,可能会对聚类结果产生不良影响。在这种情况下,可能需要先对数据进行清理或考虑使用对噪声更为鲁棒的聚类算法。
- 数据分布相对均匀
- K-means 假设簇的几何形状相对均匀,因此对于分布较为均匀的数据效果较好。对于非均匀分布的数据,可能需要考虑其他聚类算法。
K-means 聚类算法的案例:
- 市场细分
- K-means 可以用于对市场进行细分,帮助企业理解不同市场细分的特点和需求,以制定更有针对性的市场策略。
- 客户分群
- 在营销领域,K-means 可以用于将客户分成不同的群组,根据他们的购买行为、偏好和特征制定个性化的营销策略。
- 图像压缩
- K-means 被用于图像压缩,通过将图像中的颜色聚类成几个中心,可以实现图像的有损压缩,减少颜色数量而保持图像的主要特征。
- 新闻主题分类
- K-means 可以用于对新闻文章进行主题分类。通过聚类相似的文章,可以帮助用户更轻松地浏览并找到感兴趣的主题。
- 网络攻击检测
- 在网络安全领域,K-means 被用于检测异常网络流量,通过聚类正常和异常的网络行为,识别潜在的网络攻击。
- 基因表达数据分析
- 在生物信息学中,K-means 被应用于基因表达数据的分析,以发现基因表达模式,识别不同基因表达簇。
- 地理位置分析
- K-means 可以用于地理位置数据的聚类,例如根据商店的地理位置将城市划分为商业区、住宅区等,有助于空间分析和规划。
- 商品库存管理
- 在零售业中,K-means 可以用于对商品进行聚类,帮助进行库存管理和优化供应链。
文章来源:https://blog.csdn.net/galoiszhou/article/details/135153031
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。 如若内容造成侵权/违法违规/事实不符,请联系我的编程经验分享网邮箱:veading@qq.com进行投诉反馈,一经查实,立即删除!
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。 如若内容造成侵权/违法违规/事实不符,请联系我的编程经验分享网邮箱:veading@qq.com进行投诉反馈,一经查实,立即删除!