简介:
逻辑回归用于研究Y为定类数据时X和Y之间的影响关系情况,例如:客户是否会购买某个商品,如果Y为两类比如0和1(比如1为愿意和0为不愿意,1为购买和0为不购买),此时就叫二元逻辑回归;如果Y为三类以上,此时就称为多分类逻辑回归。
1 二元逻辑回归
1.1 数据处理
自变量并不一定非要定类变量,它们也可以是定量变量。如果X是定类(学历、年龄等)数据,此时需要对X进行哑变量设置。
spsspro会自动进行哑变量操作,也可以在数据处理——虚拟变量转换中自行处理:
如果X非常多(比如超过10个),此时可以先对定类的X与Y进行卡方分析,对定量的X与Y进行方差分析,先看有没有差异关系,将最终有差异关系的X放入二元逻辑回归模型中,这样X会较少,并且X与Y均有差异关系,也更可能有影响关系,此时二元逻辑回归模型的预测准确率会更高。
Y为二分类定类数据,(Y的数字一定只能为0和1)例如愿意和不愿意、是和否等,如果不是,可以在数据处理——数据编码进行操作:
另外,逻辑回归分析对样本量是有一定要求的。这里有个简单的估算方法:样本量为自变量个数的10倍。
1.2 案例介绍
案例:不同年龄跟学历对顾客满意度的影响程度分析
1.3 软件操作
1.4 结果解读
1) 模型检验
模型的似然比卡方检验的结果显示,显著性 值0.027**,水平上呈现显著性,拒绝原假设,因而模型是有效的。
2)二分类逻辑回归结果
字段年龄段_36-45岁显著性 值为0.000***,水平上呈现显著性,拒绝原假设,因此年龄段_36-45岁会对口味满意度产生显著性影响,意味着年龄段_36-45岁每增加一个单位,口味满意度为满意的几率比不满意的几率高了440.008%。
字段学历本科显著性 值为0.000***,水平上呈现显著性,拒绝原假设,因此学历本科会对口味满意度产生显著性影响,意味着学历_本科每增加一个单位,口味满意度为满意的几率比不满意的几率高了145.663%。
所以,年龄段约靠近36-45岁,学历越靠近本科,顾客对于口味满意的概率越大。
2 多分类逻辑回归
2.1 案例介绍
不同性别跟年龄段对顾客满意度的影响程度分析,满意度从1到5分别对应不满意到非常满意。
2.2 软件操作
2.3 结果解读
1)多分类因变量基本汇总
将性别,年龄段作为自变量,满意度作为因变量进行多分类逻辑回归分析,从上表可以看出,总共有468个样本参加分析。
2)模型评价
模型的似然比卡方检验的结果显示,显著性 值0.010***,水平上呈现显著性,拒绝原假设,因而模型是有效的。
3)多分类逻辑回归结果
4)分类评价指标
通过模型预测准确率去判断模型拟合质量,从上表可知:研究模型的整体预测准确率为43.6 %,模型拟合情况一般。
3 总结
本篇文章包括二元逻辑回归和多元逻辑回归,首先可以分析p 值,如果此值小于0.05,说明具有影响关系,接着再具体研究影响关系情况即可,比如是正向影响还是负向影响关系等;除此之外,还可以写出回归分析的模型构建公式,以及模型的预测准确率情况等。
相关推荐
校赛结束,省赛才是真正的淘汰赛。本文从国奖团队经验出发,给出五条冲刺建议:做两版PPT避免盲评失分;统一图表风格美化报告,SPSSPRO图表可直接复用;抽样方案要展示一手数据来源,增强信服力;补充实地调研和权威访谈,为报告增添故事感;结论建议别依赖AI,搜索行业报告提炼具体对策。降重达标只是入场券,这五件事帮你从省赛稳步走向国赛。
本文面向正大杯查重不通过的参赛者,提供一套经往届学长验证的降重方法。针对文字、表格、标题、句式、结论等不同类型标红内容,分别给出文字转图片、表格转图片、附录法、差异化改造、句式变化、加词减词、段落复述与数据植入、翻译法结合AI改写等具体操作方案,帮助参赛者高效降低查重率。作为正大杯官方指定查重系统,SPSSPRO提醒参赛者认准官方系统,避免免费查重网站带来的收录风险,安全、准确完成查重检测。
无需邀请好友,全国大学生数据分析知识科普竞赛纸质证书免费包邮寄送! 撰写小红书及知乎文章,推广第五届全国大学生数据分析科