基于熵权法评估某高校各班级整体情况(公式详解+简单工具介绍)
案例库 https://www.spsspro.com/ · 5003浏览 · 2022-02-11 08:33
根据信息熵的定义,对于某项指标,可以用熵值来判断某个指标的离散程度,一般来说,若某个指标的信息熵越小,表明指标值得变异程度越大,提供的信息量越多,在综合评价中所能起到的作用也越大,其权重也就越大。

前言:上文详细的介绍了利用层次分析法来确定权重的方法,但层次分析法的缺点也很明显,即主观性太强,判断矩阵基本上是由个人进行填写,往往最适用于没有数据的情况。

当我们具有数据时,能否直接从数据入手,确定权重呢?

image.png

例如上面的题目,常识很难帮助我们确定判断班级整体情况最重要的因素是哪一个,也很难告诉我们其余指标的重要程度如何衡量。倘若没有查到相关资料,那我们真的只能完全主观赋权了。这里都有九个指标了,万一再碰到几十个那种的,单是主观赋权就比较麻烦了……

image.png

image.png 说了这么多,就可以引出一种完全由数据出发来确定权重的方法——熵权法

1.1 熵权法的原理

熵权法的基本思路是根据指标变异性的大小来确定客观权重

熵权法,物理学名词,按照信息论基本原理的解释,信息是系统有序程度的一个度量,熵是系统无序程度的一个度量;根据信息熵的定义,对于某项指标,可以用熵值来判断某个指标的离散程度,一般来说,若某个指标的信息熵越小,表明指标值得变异程度越大,提供的信息量越多,在综合评价中所能起到的作用也越大,其权重也就越大。如果某项指标的值全部相等,则该指标在综合评价中不起作用。因此,可利用信息熵这个工具,计算出各个指标的权重,为多指标综合评价提供依据。

1.2 熵权法的应用步骤

运用熵权法进行决策时,需要经历以下3个步骤:

1.21 数据标准化

(1) 对各个因素按照每个选项的数量进行归一化处理

为避免量纲造成的影响,首先要对指标进行标准化处理。根据指标含义,可将指标分为正向指标(取值越大越好)和逆向指标(取值越小越好),分别通过如下方法进行标准化:

对于正向指标:

image.png

对于负向指标:

image.png

总而言之,需保证标准化后的数据皆为正数。

1.22 求各指标在各方案下的比值

计算第j项指标下第i个样本所占的比重,并将其看作信息熵计算中用到的概率。

image.png

1.23 求各指标的信息熵

根据信息论中信息熵的定义,一组数据的信息熵为:

image.png 其中ej≥0。若yij=0,定义ej=0,m 为考虑的影响因素的个数。

1.24 确定各指标的权重

image.png

1.25 计算综合评分

image.png

2 熵权法应用实例

2.1 背景介绍

某高校在每学年结束会对该年级的11个班级进行考核,考核标准包括成绩、纪律、作风、思想道德、日常管理、班主任工作、素质、违纪行为、迟到早退情况九个方面,并对考核结果较好的班级进行奖励。下表是对各个班级指标考核后的评分结果。

image.png

由于各项指标的难易程度不同,因此需要对9项指标进行赋权,以便能够更加合理的对各个班级的整体水平进行评价。前七项指标数值越高表现越好,后两项指标数值越低表现越好。

2.2 数据预处理

11个班级9项指标得分表标准化表:

image.png

例如一班的成绩该项指标,我们使用正向指标公式,得

image.png

而一班的违纪行为该项指标,我们使用负向指标公式,得

image.png

以此类推,可以得到上述结果表。

在该校中,前七项指标属于正向指标,后两项指标属于负向指标(正负项指标由个人定义)

2.3 求各指标在各方案下的比值

image.png

例如一班的成绩该项指标,我们使用公式

image.png

以此类推,可以得到上述结果表。

2.4 求各指标的信息熵

image.png

例如成绩该项指标,我们使用公式

image.png

以此类推,可以得到上述结果表。

2.5 计算各指标的权重

image.png

例如成绩该项指标,我们使用公式

image.png

以此类推,可以得到上述结果表。

2.6 对各个班级进行评分

image.png 例如对一班进行评分,我们使用公式

S1=1000.052+900.151+1000.186+840.045+90* 0.072+1000.045+1000.045+500.209+300.195

=72.95

以此类推,可以得到上述结果表。

因此,在十一个班级中,整体情况最好的是6班,其次是3班和2班。

3、案例工具实现

3.1使用工具

3.11 SPSSPRO—>【权重分析(熵权法)】

3.12案例操作

image.png

Step1:新建分析;

Step2:上传数据;

Step3:选择对应数据打开后进行预览,确认无误后点击开始分析;

image.png

step4:选择【权重分析(熵权法)】;

step5:查看对应的数据数据格式,【权重分析(熵权法)】要求特征序列为类变量,且至少有两项;

step6:点击【开始分析】,完成全部操作

3.13 分析结果解读

以下生成的结果来源于SPSSPRO软件的分析结果导出

输出结果1:权重分析计算结果

image.png

熵权法的权重计算结果显示成绩的权重为5.205%、纪律的权重为15.05%、作风的权重为18.637%、思想道德的权重为4.505%、日常管理的权重为7.225%、班主任工作的权重为4.504%、素质的权重为4.541%、违纪行为的权重为20.877%、迟到早退情况的权重为19.456%,其中指标权重最大值为违纪行为(20.877%),最小值为指标班主任工作(4.504%)

输出结果2:指标重要度直方图

image.png

上图以直方图形式展示了指标的重要度排序(降序)

在此基础上,我们再使用1.25的公式对各个班级进行评分就更加容易方便。

注:

SPSSPRO 默认会对指标进行正、负向指标处理,通过处理,数据就无需再进一行标准化; 熵权法得到权重值后,此时数据与对应的权重相乘,并且进行累加,最终得到一列数据即为‘综合得分’; 熵值法的计算公式上会有取对数,因此如果小于等于 0 的数字取对数,则会出现 null 值,SPSSPRO 采用非负平移进行处理,即如果某列(某指标)数据出现小于等于 0,则让该列数据同时加上一个‘平移值’【该值为某列数据最小值的绝对值+0.01】,以便让数据全部都大于 0,因而满足算法要求。

4.结论

熵权法算法简单,是一种客观赋权法,相对主观赋权具有较高的可信度和精确度,能深刻反映出指标的区分能力,进而确定权重权具有较高的可信度和精确度。但同时也具有局限性,它仅凭数据的波动程度,或者说所谓的信息量来获得权重,不考虑数据的实际意义,很可能得出违背常识的结果。所以,当业务经验不会使得权重发生失真,则比较适用于熵权法;反之,若经常发生权重失真的情况,则需要结合专家打分或评判才能较好的发挥熵权法的优势。同时,确定权重前需要确定指标对目标得分的影响方向,对非线性的指标要进行预处理或者剔除。

相关推荐

默认标签 数据分析达人
2024年全国大学生数据分析实践赛获奖名单(初稿)公示

# 2024年全国大学生数据分析实践赛获奖名单(初稿)公示 2024年全国大学生数据分析实践赛自2024年8月16日开启,共计吸引了来自

知识竞赛 原创 · 619浏览 · 09-04 08:07
2024数据分析实践赛A、B赛题公布!

**2024数据分析实践赛已于8月16日 18:00正式公布题目!** 完整题目、数据及论文提交格式下载方式: 一、直接通过赛氪网公告下

知识竞赛 原创 · 2340浏览 · 08-16 10:07
实践赛志愿者招募

实践赛志愿者招募

知识竞赛 2024年第三届全国大学生数据分析实践赛组委会 · 1627浏览 · 05-14 06:15
0 条评论
    某人
    可输入 255
    SPSSPRO社区 扫码访问移动端