俗地理解逻辑回归算法
案例库 spsspro · 1480浏览 · 2022-04-15 03:58
--

简介:

image.png

逻辑回归用于研究Y为定类数据时X和Y之间的影响关系情况,例如:客户是否会购买某个商品,如果Y为两类比如0和1(比如1为愿意和0为不愿意,1为购买和0为不购买),此时就叫二元逻辑回归;如果Y为三类以上,此时就称为多分类逻辑回归。

1 二元逻辑回归

1.1 数据处理

自变量并不一定非要定类变量,它们也可以是定量变量。如果X是定类(学历、年龄等)数据,此时需要对X进行哑变量设置。

spsspro会自动进行哑变量操作,也可以在数据处理——虚拟变量转换中自行处理:

image.png

如果X非常多(比如超过10个),此时可以先对定类的X与Y进行卡方分析,对定量的X与Y进行方差分析,先看有没有差异关系,将最终有差异关系的X放入二元逻辑回归模型中,这样X会较少,并且X与Y均有差异关系,也更可能有影响关系,此时二元逻辑回归模型的预测准确率会更高。

Y为二分类定类数据,(Y的数字一定只能为0和1)例如愿意和不愿意、是和否等,如果不是,可以在数据处理——数据编码进行操作:

image.png

另外,逻辑回归分析对样本量是有一定要求的。这里有个简单的估算方法:样本量为自变量个数的10倍。

1.2 案例介绍

案例:不同年龄跟学历对顾客满意度的影响程度分析

image.png

1.3 软件操作

image.png

1.4 结果解读

1) 模型检验

image.png

模型的似然比卡方检验的结果显示,显著性 值0.027**,水平上呈现显著性,拒绝原假设,因而模型是有效的。

2)二分类逻辑回归结果

image.png

字段年龄段_36-45岁显著性 值为0.000***,水平上呈现显著性,拒绝原假设,因此年龄段_36-45岁会对口味满意度产生显著性影响,意味着年龄段_36-45岁每增加一个单位,口味满意度为满意的几率比不满意的几率高了440.008%。

字段学历本科显著性 值为0.000***,水平上呈现显著性,拒绝原假设,因此学历本科会对口味满意度产生显著性影响,意味着学历_本科每增加一个单位,口味满意度为满意的几率比不满意的几率高了145.663%。

所以,年龄段约靠近36-45岁,学历越靠近本科,顾客对于口味满意的概率越大。

2 多分类逻辑回归

2.1 案例介绍

不同性别跟年龄段对顾客满意度的影响程度分析,满意度从1到5分别对应不满意到非常满意。

2.2 软件操作

image.png

2.3 结果解读

1)多分类因变量基本汇总

image.png

将性别,年龄段作为自变量,满意度作为因变量进行多分类逻辑回归分析,从上表可以看出,总共有468个样本参加分析。

2)模型评价

image.png

模型的似然比卡方检验的结果显示,显著性 值0.010***,水平上呈现显著性,拒绝原假设,因而模型是有效的。

3)多分类逻辑回归结果

image.png

4)分类评价指标

image.png

通过模型预测准确率去判断模型拟合质量,从上表可知:研究模型的整体预测准确率为43.6 %,模型拟合情况一般。

3 总结

本篇文章包括二元逻辑回归和多元逻辑回归,首先可以分析p 值,如果此值小于0.05,说明具有影响关系,接着再具体研究影响关系情况即可,比如是正向影响还是负向影响关系等;除此之外,还可以写出回归分析的模型构建公式,以及模型的预测准确率情况等。

相关推荐

默认标签 数据分析达人
2025年第四届全国大学生数据分析实践赛

2025全国大学生数据分析实践赛报名须知

知识竞赛 原创 · 12033浏览 · 04-16 08:25
2025年第四届大学生数据分析科普竞赛实施方案

第四届大学生数据分析科普竞赛实施方案

知识竞赛 2025年第四届全国大学生数据分析实践赛组委会 · 6642浏览 · 03-04 09:37
2025第四届大学生数据分析科普竞赛通知

第四届大学生数据分析科普竞赛通知

知识竞赛 2025年第三届全国大学生数据分析实践赛组委会 · 7054浏览 · 03-04 09:13
0 条评论
    某人
    可输入 255

    没有评论

    SPSSPRO社区 扫码访问移动端