Kmeans聚类算法入门
案例库 https://www.spsspro.com/ · 4063浏览 · 2022-03-11 02:23
对于分类问题,我们通常不会提供x与y这样的映射关系,对于这种用机器自动找出其中规律并进行分类的问题,我们称为聚类

写在前面

俗话说:“物以类聚,人以群分”,在自然科学和社会科学中,存在着大量的分类问题。

而对于分类问题,我们通常不会提供x与y这样的映射关系,对于这种用机器自动找出其中规律并进行分类的问题,我们称为聚类。

今天就来看看无监督学习中最最基础的聚类算法——K-Means

image.png

1 聚类算法

1.1 定义

聚类是常见的无监督学习算法,也就是只有数据,无明确答案,即训练集没有标签。由计算机自己找出规律,把有相似属性的样本放在一组,每个组也称为簇

1.2 K-Means步骤

选择K个点作为初始中心点 计算每个对象到k个聚类中心的距离,把每个对象分配给离它最近的聚类中心所代表的类别中,全部分配完毕即得到初始化聚类结果,聚类中心连同分配给它的对象作为一类,得到初始化聚类结果 每类中有若干个观测,计算K个类中所有样本点的均值,作为第二次迭代的K个中心点 迭代循环,得到最终聚类结果。重复2、3步,直到满足迭代终止条件 有的人到第一步就愣住了,K值要怎么选取呢?

1.3 K值选取方法

1.31 手肘法

核心指标:SSE(误差平方和)

image.png

随着聚类数k的增大,样本划分会更加精细,每个簇的聚合程度会逐渐提高,那么误差平方和SSE自然会逐渐变小。 当k小于真实聚类数时,由于k的增大会大幅增加每个簇的聚合程度,故SSE的下降幅度会很大,而当k到达真实聚类数时,再增加k所得到的聚合程度回报会迅速变小,所以SSE的下降幅度会骤减,然后随着k值的继续增大而趋于平缓,也就是说SSE和k的关系图是一个手肘的形状,而这个肘部对应的k值就是数据的真实聚类数。

image.png

显然,肘部对于的k值为4(曲率最高),故对于这个数据集的聚类而言,最佳聚类数应该选4。

1.32 轮廓系数法(选择使系数较大所对应的k值)

对于其中的一个点 i 来说:

计算 a(i) = average(i向量到所有它属于的簇中其它点的距离)

计算 b(i) = min (i向量到某一不包含它的簇内的所有点的平均距离)

那么 i 向量轮廓系数就为:

可见轮廓系数的值是介于 [-1,1] ,越趋近于1代表内聚度和分离度都相对较优。

将所有点的轮廓系数求平均,就是该聚类结果总的轮廓系数。

a(i) :i向量到同一簇内其他点不相似程度的平均值

b(i) :i向量到其他簇的平均不相似程度的最小值

1.4 终止条件

达到预先设定的迭代次数,如20次 类中心点不再发生变化或没有对象被分配给新的类

2 案例介绍

根据调研用户的收入、年龄、学历等变量进行聚类,分为高质量人类,精英人士与普通人 3 个类别。

image.png

3 软件实现

image.png

K 均值聚类分析的 K 值需要先前指定,SPSSPRO 默认为 K=2,一般选择3到6个适宜。

3.1 分析思路

根据字段进行聚类类别差异性分析 根据聚类汇总分析各聚类类别的频数 根据数据集聚类标注可以知道每一个样本数据被分到哪个类别 聚类中心坐标可以用于分析各样本与中心点的距离 对分析进行综述

3.2 输出结果

1)字段差异性分析

image.png

使用方差分析去探索各个类别的差异特征,从上表可知:聚类类别群体对于所有研究项均呈现出显著性(p<0.05),意味着聚类分析得到的3类群体,他们在研究项上的特征具有明显的差异性,具体差异性可以根据均值±标准差进行分析。

2)聚类汇总

image.png

上表展示了模型聚类的类别以及对应的频数和所占百分比。 聚类类别_1的频数为100,所占百分比为21.552%; 聚类类别_2的频数为255,所占百分比为54.957%; 聚类类别_3的频数为109,所占百分比为23.491%。

3)聚类汇总图

image.png

通过饼图,我们可以更直观的看到在该组样本中,类别2的群体占比最大,其他两个分布较为平均。

4)数据集聚类标注

image.png

上表格展示了模型聚类结果的部分数据聚类标注,其为预览结果,只显示综合排序的前 10 条数。 整份数据的分类可以点击右上角下载。

5)聚类中心点坐标

image.png

4 小结

K-Means优点在于原理简单,容易实现,聚类效果好。

当然,也有一些局限性:

结果的好坏依赖于初始类中心的选择,每次选取的随机聚类中心不一样,故带有随机性,每次结果不一定完全相同。 算法常陷入局部最优,更换初始聚类中心后,新的聚类结果可能效果更优 对孤立点敏感,如数据集存在异常突出点,会影响聚类效果

5 参考文献

[1] Scientific Platform Serving for Statistics Professional 2021. SPSSPRO. (Version 1.0.11)[Online Application Software]. Retrieved from https://www.spsspro.com.

[2]Saroj,Kavita.Review:study on simple k mean and modified K mean clustering technique[J].International Journal of Computer Science Engineering and Technology,2016, 6(7):279-281.

[3]杨俊闯,赵超.K-Means 聚类算法研究综述[J].计算机工程与应用,2019,55(23):7-14+63.

相关推荐

默认标签 数据分析达人
2025年第四届全国大学生数据分析实践赛

2025全国大学生数据分析实践赛报名须知

知识竞赛 原创 · 11457浏览 · 04-16 08:25
2025年第四届大学生数据分析科普竞赛实施方案

第四届大学生数据分析科普竞赛实施方案

知识竞赛 2025年第四届全国大学生数据分析实践赛组委会 · 6610浏览 · 03-04 09:37
2025第四届大学生数据分析科普竞赛通知

第四届大学生数据分析科普竞赛通知

知识竞赛 2025年第三届全国大学生数据分析实践赛组委会 · 6955浏览 · 03-04 09:13
0 条评论
    某人
    可输入 255

    没有评论

    SPSSPRO社区 扫码访问移动端