分类评价指标
其他 嘻嘻haha · 2049浏览 · 2022-01-12 07:39
不同的分类算法有不同的特定,在不同的数据集上表现的效果也不同,我们需要根据特定的任务进行算法的选择,如何选择分类,如何评价一个分类算法的好坏。

评价指标

评价指标的计算是基于混淆矩阵而来的。
分类目标只有两类,计为正例(positive)和负例(negtive)分别是:
1)True positives(TP): 被正确地划分为正例的个数,即实际为正例且被分类器划分为正例的实例数(样本数);
2)False positives(FP): 被错误地划分为正例的个数,即实际为负例但被分类器划分为正例的实例数;
3)False negatives(FN):被错误地划分为负例的个数,即实际为正例但被分类器划分为负例的实例数;
4)True negatives(TN): 被正确地划分为负例的个数,即实际为负例且被分类器划分为负例的实例数。
由此可以建立混淆矩阵:
图片描述

分类评价指标

1)正确率(accuracy)
正确率是我们最常见的评价指标,accuracy = (TP+TN)/(P+N),这个很容易理解,就是被分对的样本数除以所有的样本数,通常来说,正确率越高,分类器越好;
2)错误率(error rate)
错误率则与正确率相反,描述被分类器错分的比例,error rate = (FP+FN)/(P+N),对某一个实例来说,分对与分错是互斥事件,所以accuracy =1 - error rate;
3)精确度(precision)
精确度也就是查准度,表示被分为正例的示例中实际为正例的比例,precision=TP/(TP+FP);
4)召回率(recall)
召回率也就是查准率,度量有多个正例被分为正例,recall=TP/(TP+FN)=TP/P=sensitive,可以看到召回率与灵敏度是一样的。
5)F1得分
F1得分是精确率和召回率的调和平均,精确率和召回率是互相影响的,虽然两者都高是一种期望的理想情况,然而实际中常常是精确率高、召回率就低,或者召回率低、但精确率高。若需要兼顾两者,那么就可以用F1指标。
6)灵敏度(sensitive)
sensitive = TP/P,表示的是所有正例中被分对的比例,衡量了分类器对正例的识别能力;
7)特效度(specificity)
specificity = TN/N,表示的是所有负例中被分对的比例,衡量了分类器对负例的识别能力;
8)AUC值
AUC(Area Under ROC Curve),顾名思义,是ROC曲线下的面积,其值越大说明分类效果越好。

灵敏度和特效度可以作出ROC曲线图

图片描述
在进行学习器的比较时,与P-R图相似,若一个学习器的ROC曲线被另一个学习器的曲线完全“包住”,则可断言后者的性能优于前者;若两个学习器的ROC曲线发生交叉,则难以一般性地断言两者孰优孰劣.此时如果一定要进行比较,则较为合理的判据是比较ROC曲线下的面积,即AUC(Area Under ROC Curve),如图所示。

精确度和召回度可以作出P-R曲线图

准确率和召回率是互相影响的,虽然两者都高是一种期望的理想情况,然而实际中常常是准确率高、召回率就低,或者召回率低、但准确率高。所以在实际中常常需要根据具体情况做出取舍,例如在商品推荐中,为了尽可能减少打扰客户,更希望推荐的内容时用户感兴趣的,此时精确率更重要;而在逃犯信息检索系统中,更希望是尽可能减少漏掉逃犯,此时查全率更重要。 图片描述
P-R图直观地显示出学习器在样本总体上的查全率、查准率.在进行比较时,若一个学习器的P-R曲线被另一个学习器的曲线完全“包住”,则可断言后者的性能优于前者,例如图中学习器A的性能优于学习器C;如果两个学习器的P-R曲线发生了交叉,例如图中的A与B,则难以一般性地断言两者孰优孰劣,只能在具体的查准率或查全率条件下进行比较。然而,在很多情形下,人们往往仍希望把学习器A与B比出个高低.这时一个比较合理的判据是比较P-R曲线下面积的大小,它在一定程度上表征了学习器在查准率和查全率上取得相对“双高”的比例。但这个值不太容易估算,因此,人们设计了一些综合考虑查准率、查全率的性能度量,如F1得分。

相关推荐

理论学习
2025年第四届全国大学生数据分析实践赛

2025全国大学生数据分析实践赛报名须知

知识竞赛 原创 · 21248浏览 · 04-16 08:25
2025年第四届大学生数据分析科普竞赛实施方案

第四届大学生数据分析科普竞赛实施方案

知识竞赛 2025年第四届全国大学生数据分析实践赛组委会 · 7369浏览 · 03-04 09:37
2025第四届大学生数据分析科普竞赛通知

第四届大学生数据分析科普竞赛通知

知识竞赛 2025年第三届全国大学生数据分析实践赛组委会 · 8085浏览 · 03-04 09:13
0 条评论
    某人
    可输入 255
    SPSSPRO社区 扫码访问移动端