史上最全逻辑回归(原理+案例介绍)
案例库 https://www.spsspro.com/ · 7745浏览 · 2022-08-18 11:43
逻辑回归通常用于解决分类问题,比如:客户是否该买某个商品,借款人是否会违约等。实际上,“分类”是逻辑回归的目的和结果,中间过程依旧是“回归”,因为通过逻辑回归模型,我们得到的是0-1之间的连续数字,即概率,类似借款人违约的可能性。然后给这个可能性加上一个阈值,就变成了分类。

logit回归分析常见类型如下:

  • 二元logit回归:目标变量只有两个可能的结果,例如:是否满意
  • 多分类logit回归:目标变量是三个或三个以上的类别,与顺序无关,例如:预测哪种食物更受欢迎(素食,非素食,纯素食)
  • 有序logit回归:目标变量是三个或三个以上的类别,与顺序有关,例如:预测电影评分,从1颗星到5颗星。
  • 条件logit回归:目标变量多出配对ID,将配对组纳入考虑范畴

1 二元logit回归

1.1 数据处理

自变量并不一定非要定类变量,它们也可以是定量变量。如果X是定类(学历、年龄等)数据,此时需要对X进行哑变量设置。

spsspro会自动进行哑变量操作,也可以在数据处理——虚拟变量转换中自行处理:

image.png

Y为二分类定类数据,(Y的数字一定只能为0和1)例如愿意和不愿意、是和否等,如果不是,可以在数据处理——数据编码进行操作:

image.png

另外,逻辑回归分析对样本量是有一定要求的。这里有个简单的估算方法:样本量为自变量个数的10倍。

1.2 案例介绍

案例:不同年龄跟学历对顾客满意度的影响程度分析

image.png

1.3 软件操作

image.png

1.4 结果解读

1) 模型检验

image.png

模型的似然比卡方检验的结果显示,显著性 值0.027**,水平上呈现显著性,拒绝原假设,因而模型是有效的。

2)二分类逻辑回归结果

image.png

字段年龄段_36-45岁显著性 值为0.000***,水平上呈现显著性,拒绝原假设,因此年龄段_36-45岁会对口味满意度产生显著性影响,意味着年龄段_36-45岁每增加一个单位,口味满意度为满意的几率比不满意的几率高了440.008%。

字段学历本科显著性 值为0.000***,水平上呈现显著性,拒绝原假设,因此学历本科会对口味满意度产生显著性影响,意味着学历_本科每增加一个单位,口味满意度为满意的几率比不满意的几率高了145.663%。

所以,年龄段约靠近36-45岁,学历越靠近本科,顾客对于口味满意的概率越大。

2 多分类logit回归

案例:根据年龄、月收入、性别、家庭人口等影响因素(自变量)来研究工薪群体的上下班交通工具是公交地铁、自行车、还是私家车(因变量)?

image.png

软件操作

image.png

结果解读

1) 模型检验

image.png

● 对 p 值进行分析,如果该值小于 0.05,则说明模型有效;反之则说明模型无效。 ● AIC 值和 BIC 值用于对比两个模型的优劣时使用,此两个值均为越小越好。

模型的似然比卡方检验的结果显示,显著性 值 0.000***,水平上呈现显著性,拒绝原假设,因而模型是有效的。

2)多分类逻辑回归结果

image.png

● OR 值(优势比):为实验组的事件发生几率/对照组的事件发生几率。 ● 对于连续自变量的 OR 值的意义为:该变量每升高一个单位,发生实验组事件的几率比发生对照组事件的几率变化了(OR 值-1)%。 ● 对于哑变量化的 0-1 分类自变量的 OR 值意义为:该变量每升高一个单位(即分类水平从 0 变为 1),发生实验组事件的几率比发生对照组事件的几率变化了(OR 值-1)%。

对于多分类逻辑回归,需要选择有一个分类水平作为基水平,分别对这个基水平去其他分类水平建立二分类逻辑回归,在本例中,选择了“公交地铁”作为基水平,分别建立了“公交水平-私家车”和“公交水平-自行车”这两个二分类逻辑回归器。

基于参考公交地铁 ->私家车: 只有字段 性别男 是显著的,字段性别男显著性 值为 0.000***,水平上呈现显著性,拒绝原假设,因此性别_男会对交通工具产生显著性影响,意味着性别 每增加一个单位,(在本例中,对分类变量进行了哑变量,其中性别男=1,性别女=0,意味着从分类水平从 0 变为 1,也就是当性别为男性时,交通工具为私家车的几率比公交地铁的几率高了 982.888%;)

基于参考公交地铁 ->自行车: 字段年龄 显著性 值为 0.044**,水平上呈现显著性,拒绝原假设,因此年龄 会对交通工具产生显著性影响,意味着年龄 每增加一个单位,交通工具为自行车的几率比公交地铁的几率高了 18.723%。 字段家庭人口显著性 值为 0.000***,水平上呈现显著性,拒绝原假设,因此家庭人口会对交通工具产生显著性影响,意味着家庭人口每增加一个单位,交通工具为自行车的几率比公交地铁的几率低了 91.381%。 字段性别男显著性 值为 0.000***,水平上呈现显著性,拒绝原假设,因此性别男会对交通工具产生显著性影响,意味着性别 每增加一个单位,交通工具为私家车的几率比公交地铁的几率高了 9183.612%;

3)分类评价指标

image.png

  • 准确率:预测正确样本占总样本的比例,准确率越大越好。
  • 召回率:实际为正样本的结果中,预测为正样本的比例,召回率越大越好。 精确率:预测出来为正样本的结果中,实际为正样本的比例,精确率越大越好。
  • F1:精确率和召回率的调和平均,精确率和召回率是互相影响的,虽然两者都高是一种期望的理想情况,然而实际中常常是精确率高、召回率就低,或者召回率低、但精确率高。若需要兼顾两者,那么就可以用 F1 指标。
  • AUC:AUC 值越接近 1 说明分类效果越好。

综合各指标的值可知,建立的多分类逻辑回归的分类效果是中等偏上的,具有一定意义。

3 有序logit回归

有序逻辑回归适用于因变量为等级或者程度差别的有序变量,如因变量满意度分为不满意记为1,满意记为2,非常满意记为3。目的是为了研究有序分类因变量与一些影响因素之间的关系。

分析步骤

  1. 对分类因变量分布状况进行描述。
  2. 对模型进行似然检比卡方检验,分析似然检比卡方显著性,若p值小于0.05,说明模型有效,反之模型不成立。若设计多个模型,可以结合其他分类评价或者信息准则(AIC、BIC值越小越好)进行综合分析。
  3. 根据模型参数表,分析X是否呈显著性(p值小于0.05),用于探究X对Y的影响关系。分析回归系数B与OR值(优势比),对比分析X对Y的影响程度。
  4. 根据样本预测值所满足某一类别的表达式,可以将该样本划分至有序因变量的某一类别中。
  5. 结合预测分类混淆矩阵与模型评价中的分类指标,分析模型预测。

案例:根据年龄、性别、是否患有糖尿病、运动量,来分析哪些因素对BMI产生影响,而BMI分为正常、偏高、肥胖三类,为有序变量,因此采用的是有序逻辑回归。

image.png

软件操作

image.png

结果解读

1)模型评价

image.png

模型的似然比卡方检验的结果显示,显著性 值0.000***,水平上呈现显著性,拒绝原假设,因而模型是有效的。

2)有序逻辑回归结果

image.png

基于变量-年龄,显著性p值为0.000***,水平上呈现显著性,拒绝原假设,因此年龄对BMI会产生显著性影响,以及OR值为1.058,意味着年龄每增加一个单位,BMI提高一个或一个以上的等级的概率增加了5.81%。

基于变量-运动量,显著性p值为0.000***,水平上呈现显著性,拒绝原假设,因此运动量对BMI会产生显著性影响,以及OR值为0.583,意味着运动量每增加一个单位,BMI提高一个或一个以上的等级的概率减少了41.654%。

基于变量-性别男,显著性p值为0.228,水平上不呈现显著性,不能拒绝原假设,因此性别男对BMI不会产生显著性影响。

基于变量-糖尿病_1.0,显著性p值为0.001***,水平上呈现显著性,拒绝原假设,因此糖尿病_1.0对BMI会产生显著性影响,以及OR值为3.733,意味着糖尿病_1.0每增加一个单位,BMI提高一个或一个以上的等级的概率增加了273.251%。

3)因变量分类阈值

image.png

上表展示了因变量分类阈值。若因变量预测值 ŷ 满足某个类别下方对应的表达式,那么样本就被预测为该类别。

4)分类评价指标

image.png

  • 准确率:预测正确样本占总样本的比例,准确率越大越好。
  • 召回率:实际为正样本的结果中,预测为正样本的比例,召回率越大越好。
  • 精确率:预测出来为正样本的结果中,实际为正样本的比例,精确率越大越好。
  • F1:精确率和召回率的调和平均,精确率和召回率是互相影响的,虽然两者都高是一种期望的理想情况,然而实际中常常是精确率高、召回率就低,或者召回率低、但精确率高。若需要兼顾两者,那么就可以用F1指标。
  • AUC:AUC值越接近1说明分类效果越好。

4 条件逻辑回归

条件逻辑回归是使用配对数据的一种模型,常用于医学研究的回顾研究和前瞻研究。在配对数据使用非条件逻辑回归常高估了OR值,而条件逻辑回归考虑到了数据的分层和匹配情况,从而解决这个问题。其中配对数据一般是具有特定条件或属性的病例受试者与没有该条件的n个对照受试者相匹配而组成的。

案例:调查痛风发病(发病为1)和三种因素(是否高尿酸血症(有病为1)、锻炼情况(不锻炼=0,偶尔=1,经常锻炼=2)、体重)的关系。采用1:2配对的病例对照研究形式,选取健康进行对照。使用条件逻辑回归进行原因分析。

image.png

软件操作

image.png

结果解读

1)Ominbus全局性检验

image.png

上表展示了样本 Ominbus 全局性检验的结果,包括-2 倍对数极大似然值、卡方值等,用于检验模型中所有变量的回归系数是否全为零。-2 倍对数极大似然值用于检验模型的拟合情况,其值越小,表示模型拟合的越好。

Ominbus 全局性检验的显著性 P 值为 0.000***,水平上呈现显著性,拒绝原假设,因此数据至少存在一个变量的风险比率不为零,模型有效。

2)条件逻辑回归结果

image.png

  • RR值(相对危险度):试验组累积发病率/对照组累积发病率。 RR值越大,表明效应越大,若 RR等于1说明暴露因素与疾病之间无关联;若大于1,说明该因素与疾病呈正相关,若小于1,说明该因素与疾病呈负相关。
  • 1、对于连续自变量的RR值无统计学意义。
  • 2、对于哑变量化的0-1分类自变量的RR值意义为:该变量每升高一个单位(即分类水平从0变为1),发生实验组事件的几率是发生对照组事件的RR倍。

基于变量-体重、是否高尿酸血症、锻炼情况, 值>0.05,水平上均不呈现显著性,因此三者对是否痛风不会产生显著性影响。

相关推荐

默认标签 数据分析达人
2025年第四届全国大学生数据分析实践赛

2025全国大学生数据分析实践赛报名须知

知识竞赛 原创 · 18949浏览 · 04-16 08:25
2025年第四届大学生数据分析科普竞赛实施方案

第四届大学生数据分析科普竞赛实施方案

知识竞赛 2025年第四届全国大学生数据分析实践赛组委会 · 7107浏览 · 03-04 09:37
2025第四届大学生数据分析科普竞赛通知

第四届大学生数据分析科普竞赛通知

知识竞赛 2025年第三届全国大学生数据分析实践赛组委会 · 7818浏览 · 03-04 09:13
0 条评论
    某人
    可输入 255
    SPSSPRO社区 扫码访问移动端