1 算法概述
1.1 定义
从字面来解读,我们一般用颜色来表示已知信息的多少,白色代表信息充足,黑色代表信息未知,灰色介于两者之间,表示部分了解。对于两个系统之间的因素,其随时间或不同对象而变化的关联性大小的量度,称为关联度。在系统发展过程中,若两个因素变化的趋势具有一致性,即同步变化程度较高,即可谓二者关联程度较高;反之,则较低。
灰色关联分析简单来讲,就是在一个灰色系统中,我们想要了解其中某个我们所关注的某个项目受其他的因素影响的相对强弱。
简单点,就是说:我们假设知道某一个指标可能是与其他的某几个因素相关的,那么我们想知道这个指标与其他哪个因素相对来说更有关系,而哪个因素相对关系弱一点,依次类推,把这些因素排个序,得到一个分析结果,我们就可以知道我们关注的这个指标,与因素中的哪些更相关。
1.2 分析步骤
1.21 确定特征序列和母数列
(1)特征序列(又称比较序列、子序列)
影响系统行为的因素组成的数据序列,类似于因变量X,此处记为(x0, x1, x2,…,xm,)
(2)母序列(即评价标准)
能反映系统行为特征的数据序列,类似于因变量Y,此处记为x0
1.22 对指标数据进行量纲一化
为了真实地反映实际情况 ,排除由于各个指标单位的不同及其数值数量级间 的悬殊差别带来的影 响 ,避免不合理现象的发生 ,需要对指标进行量纲一化处理。
#### 1.23 计算关联系数
由下式分别计算每个比较序列与参考序列对应元素的关联系数 :
P为分辨系数 ,在 [0,1]内取值 ,分辨系数越小,关联系数间差异越大,区分能力越强,通常取 0.5。
1.24 计算关联序度
分别计算其各个指标与参考序列对应元素的关联系数的加权平均值 ,以反映各操纵装置对象与参考序列间的关联关系 ,并称其为关联度 ,记为
1.25 分析计算结果
根据灰色加权关联度的大小,建立各评价对象的关联序。关联度越大,表明评价对象对评价标准的重要程度越大。
2 案例及其实现
2.1 案例介绍
分析2009-2018年内,影院数量,观影人数,票价、电影上线数量这些因素对全年电影票房的影响。
2.2 确定特征序列和母数列
特征序列:影院数量,观影人数,票价、电影上线数量
母序列:电影票房
2.3 对指标数据进行量纲一化
随着年份增长,数据是稳定递增的,所以在这里我们使用初值化。
处理后的数据如下:
2.4 计算关联系数
依据公式,求得:
2.5 计算关联序度
2.6 分析计算结果
针对本次 4 个评价项,银幕数量评价最高,其次是电影上线数量。这说明对票房影响最大的是银幕数量,其次是电影上线数量、票价,观影人数对电影票房的影响程度较小。
3 软件实现
3.1 软件操作
3.2 结果解读
3.21 灰色关联系数
关联系数代表着该子序列与母序列对应维度上的关联程度值(数字越大,代表关联性越强)
3.22 关联系数图
输出结果 1 和输出结果 2 是一样的,输出结果 1 用了表格形式来呈现关联系数,输出结果 2 用了图表形式来呈现关联系数。图表很直观地展现了,大多数年份的银幕数量和电影上线数量对票房影响更大。
3.23 灰色关联度
针对本次 4 个评价项,银幕数量评价最高(关联度为:0.882),其次是电影上线数量(关联度为:0.873)。这说明对票房影响最大的是银幕数量,其次是电影上线数量、票价,观影人数对电影票房的影响程度较小。
注:
灰色关联分析时,数据一定需要大于 0,原因在于如果小于 0 进行计算时会出现‘抵消’现象,并不符合灰色关联分析的计算原理。如果出现小于 0 数据,建议作为空值处理或者填补; 母序列是指标的参照对比项,比如研究 5 个指标与母序列的关联程度,通常研究者需要自己提供母序列数据。
4 总结
优点
灰色关联分析法弥补了采用数理统计方法作系统分析所导致的遗憾。它对样本量的多少和样本有无规律都同样适用,而且计算量小,十分方便,更不会出现量化结果与定性分析结果不符的情况。
缺点
要利用该方法,这个系统必须是灰色系统。灰色系统中灰的主要含义是信息不完全性(部分性)和非唯一性,其中的“非唯一性”是灰色系统的重要特征,非唯一性原理在决策上的体现是灰靶思想,即体现的是决策多目标、方法多途径,处理态度灵活机动。
相关推荐
# 2024年全国大学生数据分析实践赛获奖名单(初稿)公示 2024年全国大学生数据分析实践赛自2024年8月16日开启,共计吸引了来自
**2024数据分析实践赛已于8月16日 18:00正式公布题目!** 完整题目、数据及论文提交格式下载方式: 一、直接通过赛氪网公告下