聚类分析

#例题来自于中国人民大学《多元统计分析》第五版 何晓群著
例题3.5 数据获取扫码关注微信公众号 回复:例3.5
在这里插入图片描述
#如果你觉得很有用,可以点点关注哦~你的关注是美滋滋继续努力的动力!

题目

为研究城镇居民的消费结构,对《中国统计年鉴》中2016年分地区城镇居民人均消费支出表进行指标聚类,该表共有8个指标,分别是食品烟酒支出、衣着支出、居住支出、生活用品及服务支出、交通通信支出、教育文化娱乐支出、医疗保健支出、其他用品及服务支出。将指标中相关性较强的指标进行归并,可有效得到地区消费水平的分类结果。

实验目的

对社会经济案例进行研究

SPSS上机操作步骤

一、相关性分析

对数据进行距离的计算,输出近似值矩阵。当两个变量之间的相似性越趋近于1时,说明这两个变量的相关程度较高,观察表格可得的相似性为0.826,是表格中最趋近于1的部分,因此将x4和x8归为一类,重新计算近似值矩阵。
操作
在这里插入图片描述

输出结果
近似值矩阵

近似值矩阵相当于相关系数矩阵,表现了两个变量之间的相关程度,对角线为方差,相关系数矩阵的计算公式为
相关系数计算公式
根据公式也可以手算出相关系数矩阵,在多元统计分析的考试中也是一个基础考点

二、组间连接法进行系统聚类

操作
系统聚类步骤
选择输出图形的类型,系谱图和冰柱图都可以良好的表现样品间的相关关系。
在这里插入图片描述
可以在方法选项中选择聚类的方法。
在这里插入图片描述

同时在方法选项中可以选择自定义统计距离的计算方法,默认为平方欧氏距离。平方欧氏距离与欧氏距离定义不一样。
可以选择聚类统计距离的计算方法

输出结果
平均连接法系谱图

使用类平均法对变量进行聚类,结果如下,可以看到在一定分类范围内,变量之间被分为5、3和2类,可以看到全国城镇居民消费结构主要大致分为以下方面:x2衣着支出和x4生活用品及服务支出为一方面,x7医疗保健支出和x8其他用品及服务支出为一方面,x4、x5、x6交通通信支出、教育文化娱乐支出为一方面,最后占比最大的方面是食品烟酒支出和居住支出其他用品与服务支出。
对个案之间用类平均法(组间链接),进行聚类,得到个案间的聚类谱系图。可以看到,北京、上海为一类,天津、福建、浙江、江苏和广东为一类,其他为一类。以北京上海为首的一类消费水平较高,天津、福建、浙江、江苏和广东消费水平中等,其他消费水平较低。

在这里插入图片描述

三、使用最长距离法进行系统聚类

操作方法同上。不再赘述。

使用最长距离法对个案就行聚类,依然是北京、上海为一类,第二类是江苏广东福建天津浙江为一类,其余为一类,所得结果与组间连接法相同。
在这里插入图片描述

四、使用最短距离法进行系统聚类

使用最短距离法进行分类,最短距离法的聚类结果显示,北京上海被聚为一类,其余省市被聚为一类,显然不具有合理性,因此可认为最短距离法不如组间链接和最长距离法的聚类结果好。
在这里插入图片描述

五、使用k-means聚类法对样本进行聚类

从初始聚类中心表中可以得到k-means算法将样本分为了4个聚类中心,其中聚类中心1中的聚类效果最好,因为他的各项指标值是最优的,其次是第二类,以此类推最差是第四类,因为第四类的各项指标值是4类中最低的。
初始聚类中心
在这里插入图片描述
迭代历史记录表表示了4类中心点在每次迭代的偏移情况,由此可知第一次迭代的四个类中心点偏移量分别是1294.517,1429.907,1679.367,1901.705,第二次迭代时,四个类中心点的偏移量均为0,达到停止迭代标准,因此只迭代了两次。
在这里插入图片描述
第三个表是最终聚类中心表,最终聚类中心表中第一类的各项指标仍然是最优的。最终聚类中心表中的数值,是各个聚类的均值,可用作分类指标。
在这里插入图片描述
最后一张表是每个聚类中的个案数目,也就是每一类中的样品数,其中第一类包2个地区,第二类包含5个地区,第三类包含4个地区,第四类包含了20个地区。
在这里插入图片描述

试验总结:

本次实验采用了两种聚类方法,四种距离计算方法对样本的31个地区进行聚类分析,得到人均消费支出较为接近的地区,将其分为一类。其中,在进行聚类之前,应先对样本进行近似值估算,即相关性分析,得到相关系数矩阵,找到相关系数最为接近1的一项,将两个因素归为一类,再进行相关系数计算,得到城镇居民消费指标的系统聚类图。由城镇居民消费指标的系统聚类图可以得到,x1、x3和x8是城镇居民人均消费支出的大头,即食品烟酒支出、居住支出和其他用品及服务支出,符合现实支出情况。利用区间连接、最长距离法、最短距离法分别进行个案聚类,其中,最长距离法、区间连接法得到的结果均为北京、上海为一类,第二类是江苏广东福建天津浙江为一类,其余为一类,而最短距离法只进行了两次分类,分别是北京上海为一类,其他为一类,分类结果显然差于前两种方法。最后是运用k-means聚类法进行聚类,得到的结果与最长距离法、区间连接法相一致。

Logo

开放原子开发者工作坊旨在鼓励更多人参与开源活动,与志同道合的开发者们相互交流开发经验、分享开发心得、获取前沿技术趋势。工作坊有多种形式的开发者活动,如meetup、训练营等,主打技术交流,干货满满,真诚地邀请各位开发者共同参与!

更多推荐