

简介:
逻辑回归用于研究Y为定类数据时X和Y之间的影响关系情况,例如:客户是否会购买某个商品,如果Y为两类比如0和1(比如1为愿意和0为不愿意,1为购买和0为不购买),此时就叫二元逻辑回归;如果Y为三类以上,此时就称为多分类逻辑回归。
1 二元逻辑回归
1.1 数据处理
自变量并不一定非要定类变量,它们也可以是定量变量。如果X是定类(学历、年龄等)数据,此时需要对X进行哑变量设置。
spsspro会自动进行哑变量操作,也可以在数据处理——虚拟变量转换中自行处理:
如果X非常多(比如超过10个),此时可以先对定类的X与Y进行卡方分析,对定量的X与Y进行方差分析,先看有没有差异关系,将最终有差异关系的X放入二元逻辑回归模型中,这样X会较少,并且X与Y均有差异关系,也更可能有影响关系,此时二元逻辑回归模型的预测准确率会更高。
Y为二分类定类数据,(Y的数字一定只能为0和1)例如愿意和不愿意、是和否等,如果不是,可以在数据处理——数据编码进行操作:
另外,逻辑回归分析对样本量是有一定要求的。这里有个简单的估算方法:样本量为自变量个数的10倍。
1.2 案例介绍
案例:不同年龄跟学历对顾客满意度的影响程度分析
1.3 软件操作
1.4 结果解读
1) 模型检验
模型的似然比卡方检验的结果显示,显著性 值0.027**,水平上呈现显著性,拒绝原假设,因而模型是有效的。
2)二分类逻辑回归结果
字段年龄段_36-45岁显著性 值为0.000***,水平上呈现显著性,拒绝原假设,因此年龄段_36-45岁会对口味满意度产生显著性影响,意味着年龄段_36-45岁每增加一个单位,口味满意度为满意的几率比不满意的几率高了440.008%。
字段学历本科显著性 值为0.000***,水平上呈现显著性,拒绝原假设,因此学历本科会对口味满意度产生显著性影响,意味着学历_本科每增加一个单位,口味满意度为满意的几率比不满意的几率高了145.663%。
所以,年龄段约靠近36-45岁,学历越靠近本科,顾客对于口味满意的概率越大。
2 多分类逻辑回归
2.1 案例介绍
不同性别跟年龄段对顾客满意度的影响程度分析,满意度从1到5分别对应不满意到非常满意。
2.2 软件操作
2.3 结果解读
1)多分类因变量基本汇总
将性别,年龄段作为自变量,满意度作为因变量进行多分类逻辑回归分析,从上表可以看出,总共有468个样本参加分析。
2)模型评价
模型的似然比卡方检验的结果显示,显著性 值0.010***,水平上呈现显著性,拒绝原假设,因而模型是有效的。
3)多分类逻辑回归结果
4)分类评价指标
通过模型预测准确率去判断模型拟合质量,从上表可知:研究模型的整体预测准确率为43.6 %,模型拟合情况一般。
3 总结
本篇文章包括二元逻辑回归和多元逻辑回归,首先可以分析p 值,如果此值小于0.05,说明具有影响关系,接着再具体研究影响关系情况即可,比如是正向影响还是负向影响关系等;除此之外,还可以写出回归分析的模型构建公式,以及模型的预测准确率情况等。
相关推荐
没有评论