

前言:
普通线性回归模型关注的是均值,研究的是在某些解释变量在取值固定的条件下响应变量的期望均值,模型估计方法是最小二乘法,使各个样本残差平方和(MSE)最小。且只能够获得“在控制一系列干扰因素后,自变量增加一个单位,因变量(的均值)增加多少”这样的结果。
然而,普通最小二乘法处理异常值是将它们平方,平方会显著增加异常值对平均值等统计数据的巨大影响,如果我们不仅希望研究响应变量的期望均值,而且还想知道其对不同分位数上因变量的影响,这时候就需要分位数回归了。
1 分位数回归概述
1.1 分位数概念
分位数(Quantile),亦称分位点,是指将一个随机变量的概率分布范围分为几个等份的数值点,常用的有中位数(即二分位数)、四分位数(第25、50和75个百分位)、百分位数等。
1.2 分位数回归概念
分位数回归既能研究在不同分位点处自变量X对于因变量Y的影响变化趋势,也能研究在不同分位点处的哪些自变量X是主要影响因素。原理是将数据按因变量进行拆分成多个分位数点,研究不同分位点情况下时的回归影响关系情况。
比如说想要研究学习时间对学业成绩的影响,使用分位数回归我们就可以研究学习时间每增加一个单位,学生的学业成绩会如何变化,这里的学生可以是学习成绩位列前20%的好学生,也可以是位列50%的普通学生,还可以是位列后20%的后进生。瞬间研究的范围就变大了,群体的异质性也体现出来了。
本质上,分位数回归就是一个加权最小二乘法,给不同的y值(大于分位点和小于分位点的y)不同的权重,比如现在我们有一个数据集是1到10各整数,我们希望求0.7分位数,假设这个0.7分位数是q,然后所有大于q的数都被赋上权重0.7,小于q的赋予权重0.3。
2 案例介绍
建立分位数回归来分析产品质量、广告投放对产品销售的影响。
3 软件操作及结果解读
3.1 软件操作
可以添加需要分析的分位数,常用的分位数有四分位数、十分位数。本例设定十分位数。
3.2 结果解读
1)分位数回归结果表
图表说明:上表格展示了分位数回归的参数结果,包括分位数点、变量、样本量、拟合度R²等,可从两方面来进行分析:
● 在不同分位数处自变量对因变量的回归系数呈现的变化趋势。横向来看表格,比如,对于产品质量,它的回归系数随着分位数的增大而不断增大,这说明随着产品质量的不断提高,对产品销售的影响逐渐增大。
● 在不同分位数处各个自变量的显著性。纵向来看表格,对于某个分位点,如0.5分位点,两个自变量的系数都是显著的(p值小于0.05),说明广告投放和产品质量都对销售额有影响。
2)分位数回归系数及其置信区间
图表说明:上图展示了分位数回归的参数结果,可以对每个变量的分位数回归图进行影响幅度分析。对于变量-广告投放,从分位数0.2起,广告投放对产品销售来说有明显的提升,并且从分位数0.2-分位数0.9过程中,广告投放对产品销售的影响较为平稳。由此我们可以得到结论,广告投放资源的0.2分位点处就能得到对销售有利的影响,且在0.4分位点就能达到最高影响销售的力度,没必要花到最大的广告投放资源。
图表说明:上图展示了分位数回归的参数结果,可以对每个变量的分位数回归图进行影响幅度分析。对于变量-产品质量,分位点的回归系数整体上是逐渐增加的,并且在0.9分位点处对销售的影响是最高的,这说明随着产品质量的不断提高,对产品销售的影响逐渐增大。
4 总结
(1)分位数回归能够更加全面的描述被解释变量条件分布的全貌,而不是仅仅分析被解释变量的条件期望(均值),也可以分析解释变量如何影响被解释变量的中位数、分位数等。不同分位数下的回归系数估计量常常不同,即解释变量对不同水平被解释变量的影响不同。
(2)分位数回归的估计方法与最小二乘法相比,估计结果对离群值则表现的更加稳健,而且,分位数回归对误差项并不要求很强的假设条件,因此对于非正态分布而言,分位数回归系数估计量则更加稳健。
相关推荐
第三届数据分析科普竞赛优秀协办单位及校园大使名单公布!
# 2024年全国大学生数据分析实践赛获奖名单(初稿)公示 2024年全国大学生数据分析实践赛自2024年8月16日开启,共计吸引了来自
**2024数据分析实践赛已于8月16日 18:00正式公布题目!** 完整题目、数据及论文提交格式下载方式: 一、直接通过赛氪网公告下