毕业论文常用的回归分析对比-文章-SPSSPRO社区

1 回归分析简介

1.1回归定义

回归分析是研究自变量与因变量之间数量变化关系的一种分析方法，它主要是通过因变量 Y 与影响它的自变量 X 之间的回归模型，衡量自变量 X 对因变量 Y 的影响能力的，进而可以用来预测因变量 Y 的发展趋势。

1.2 回归类型的初步判断

1.3 变量处理

针对分类变量需要使用哑变量（也叫虚拟变量）来操作。

举个例子，有一个“年龄”变量，分为：青年，中年，老年三类，那么我们可以用两个哑变量来代替：

变量1 = 1代表青年，0代表非青年

变量2 = 1代表中年，0代表非中年

变量1和变量2都等于0代表老年

所以用2个变量就可以表示3个类别。

2 不同分析方法案例详解

2.1 线性回归

线性回归是指完全由线性变量组成的回归模型。在线性回归分析中，只包括一个自变量和一个因变量，且二者的关系可用一条直线近似表示，这种回归分析称为一元线性回归分析。如果回归分析中包括两个或两个以上的自变量，且因变量和自变量之间是线性关系，则称为多元线性回归分析。

适用条件：

线性回归是一个回归问题
变量之间是线性关系
误差服从均值为零的正态分布
变量x的分布要有变异性
多元线性回归不同特征之间相互独立

输入:自变量 X 至少一项或以上的定量变量或二分类定类变量，因变量 Y 要求为定量变量（若为定类变量，请使用逻辑回归）。

输出:模型检验优度的结果，自变量对因变量的线性关系等等

示例：通过自变量（房子年龄、是否有电梯、楼层高度、房间平方）拟合预测因变量（房价）。

1）对回归模型进行检验

从 F 检验的结果分析可以得到，显著性 P 值为 0.000，水平上呈现显著性, 拒绝回归系数为 0 的原假设

模型的拟合度R² =0.91, 模型表现较为良好，因此模型基本满足要求对于变量共线性表现。

VIF全部小于10（若VIF大于10，建议使用岭回归或者逐步回归），因此模型没有多重共线性问题, 模型构建良好。

B列：

模型的公式如下:y=37.362-1.1房龄+0.063楼层+0.457房价-18.390配套电梯

2）利用回归模型进行预测

上表格显示了线性回归模型的预测情况，在输入相应的自变量信息后，软件会自动生成因变量的预测值，帮助大家做一个参考。

2.2 逻辑（Logistic）回归

用于研究Y为定类数据时X和Y之间的影响关系情况，如果Y为两类比如0和1（比如1为愿意和0为不愿意，1为购买和0为不购买），此时就叫二元逻辑回归；如果Y为三类以上,此时就称为多分类逻辑回归。

自变量并不一定非要定类变量，它们也可以是定量变量。如果X是定类数据，此时需要对X进行哑变量设置。

如果X非常多(比如超过10个)，此时可以先对定类的X与Y进行卡方分析，对定量的X与Y进行方差分析，先看有没有差异关系，将最终有差异关系的X放入二元逻辑回归模型中，这样X会较少，并且X与Y均有差异关系，也更可能有影响关系，此时二元逻辑回归模型的预测准确率会更高。

另外，逻辑回归分析对样本量是有一定要求的。这里有个简单的估算方法：样本量为自变量个数的10倍。

输入:自变量 X 至少一项或以上的定量变量或二分类定类变量，因变量 Y 要求为定类变量

输出:模型检验优度的结果

案例：不同年龄跟学历对顾客满意度的影响程度分析

1）模型检验

模型的似然比卡方检验的结果显示，显著性值0.027**，水平上呈现显著性，拒绝原假设，因而模型是有效的。

2）二分类逻辑回归结果

字段年龄段_36-45岁显著性值为0.000***，水平上呈现显著性，拒绝原假设，因此年龄段_36-45岁会对口味满意度产生显著性影响，意味着年龄段_36-45岁每增加一个单位，口味满意度为满意的几率比不满意的几率高了440.008%。

字段学历本科显著性值为0.000***，水平上呈现显著性，拒绝原假设，因此学历本科会对口味满意度产生显著性影响，意味着学历_本科每增加一个单位，口味满意度为满意的几率比不满意的几率高了145.663%。

所以，年龄段约靠近36-45岁，学历越靠近本科，顾客对于口味满意的概率越大。

2.3 分层回归

分层回归将核心研究的变量放在最后一步进入模型，以考察在排除了其他变量的贡献的情况下，该变量对回归方程的贡献。如果变量仍然有明显的贡献，那么就可以做出该变量确实具有其他变量所不能替代的独特作用的结论。这种方法主要用于，当自变量之间有较高的相关，其中一个自变量的独特贡献难以确定的情况。

我们运行分层回归的主要目的是分析是否有必要增加新的自变量，而不是进行预测，回归系数不是我们主要关注的结果。

适用条件： - 因变量是连续变量 - 自变量不少于2个（连续变量或分类变量都可以） - 具有相互独立的观测值 - 自变量和因变量之间存在线性关系 - 等方差性 - 不存在多重共线性 - 不存在显著的异常值 - 残差近似正态分布

输入：多层次的线性回归数据

输出：上一个层次与下一个层次的拟合变化情况，用于分析多加入的变量对自变量（Y）的影响程度。

案例：某高校随机抽取 400 多名大学生，调查其身高、体重、运动市场和肺呼量（Y）数据，控制身高、体重，分析运动时长对肺呼量的影响程度。

1）比较不同的模型

从输出结果可以看出，本研究共有2个模型：控制层和层次1。

控制层是第一个模型，没有前序变量，因此该模型的自变量只有身高和体重。层次1比前一个模型增加了运动分钟变量

控制层和层次1中纳入的变量都是在上一个模型基础上的。比如，层次1是在控制层的基础上纳入运动分钟变量，即共纳入身高、体重、运动分钟三个变量，而不是运动分钟一个变量。

2）判断分层回归模型的拟合程度

变异的解释程度

R2是多层回归的重要指标，反映自变量解释因变量变异的程度。从上表可以看出，随着自变量数量的增加，模型1-2的R2逐渐增加，分别是0.653和0.747，提示层次1模型对因变量的预测能力加强。

R2值在各模型间的变化

控制层是初始模型，在空模型的基础上增加了身高和体重两个变量。该模型的△R²和R²值相同，均为0.653。△R²具有统计学意义，P<0.001。

层次1的△R²为0.094，即模型2的R²值(0.747)与模型1的R²值(0.653)的差，P<0.001，即模型2的△R²具有统计学意义。

在本研究中，层次1与控制层的差别仅在于运动分钟变量，提示在回归中纳入运动分钟变量后自变量对因变量变异的解释能力增加9.4%（P<0.001），即纳入运动分钟变量对受试者肺活量的预测改善有统计学意义。

解释：如果我们在层次1中增加了不止一个变量，那么R²值的改变就是所有新增变量共同作用的结果，而不是某一个变量的。

模型的统计学意义

分层回归模型主要关注的是最终模型，即最后一个完整的模型，本例中的层次1

层次1是全模型，纳入身高、体重、运动分钟三个变量。结果示，该模型具有统计学意义，F(3,450)=439.15，P<0.001，提示因变量和自变量之间存在线性相关，说明相较于空模型，纳入这三个自变量有助于预测因变量。

回归系数

我们可以按照多重线性回归的分析方法对分层回归系数进行解释。

模型的公式如下:y=-1921.98+20.546身高+13.136体重+11.226*运动分钟

2.4 岭回归

岭回归是一种专用于共线性数据分析的有偏估计回归方法，一般在做岭回归之前，先采用线性回归（最小二乘法回归），如果发现自变量 VIF（共线性）过大，如超过 10，才使用岭回归

输入:自变量 X 至少一项或以上的定量变量或二分类定类变量，因变量 Y 要求为定量变量（若为定类变量，请使用逻辑回归）。

输出:模型检验优度的结果，自变量对因变量的线性关系等等。

案例:通过自变量（房间面积、楼层高度、房子单价、是否有电梯、周围学校数量、距地铁站位置）拟合预测因变量（房价），现在发现房子单价与楼层高度之间有着很强的共线性，VIF 值高于 20；不能使用常见的最小二乘法 OLS 回归分析，需要使用岭回归模型。

岭回归分析结果

基于字段面积、楼层、单价、周围学校数量(1km)、距地铁站距离(km)、配套电梯回归模型显著性值为 0.000，水平上呈现显著性，拒绝原假设，表明自变量与因变量之间存在着回归关系。同时，模型的拟合优度 ² 为 0.956，模型表现为较为较为优秀，因此模型基本满足要求。

模型的公式：

总价=-64.72 ＋ 0.987 × 面积-0.043 × 楼层＋ 0.008 × 单价-0.447 × 周围学校数量(1km)-4.198 × 距地铁站距离(km)-3.674 × 配套电梯

3 总结

这一节主要介绍了四种常用模型的案例操作以及结果解释，概括一下，线性回归与岭回归都适用于因变量为定量变量的预测，当数据存在多重共线性（VIF>10）时使用岭回归。逻辑回归用于研究Y为定类数据。而分层回归则注重研究自变量的贡献程度。