今天学习了统计回归模型,统计回归模型是基于统计理论建立的最基本最常用的一类数据驱动模型。本篇博文主要围绕regress函数的参数进行讲解!

一元线性回归模型的概念

这也要从一个女装公司讲起!
在这里插入图片描述
问:请用函数关系描述身高与腿长的联系。
一般接受过培训懂点数模的同学应该非常清楚的是,拿到此题,先画出散点图,观察是什么样子的,然后进行下一步观测!
在这里插入图片描述
得出结论:由图知,身高越高,腿长越长!
然后同学们运用直线关系进行拟合,在这里就出来了概念
在这里插入图片描述
同样的我们会关注belta0和belta1,但是很少对他做细致分析,完整的使用是regress函数,代码如下:

x=[143 146 147 149 150 153 154 155 156 157 158 159 160 162 164]';
Y=[88 88 91 92 93 93 95 96 98 97 96 98 99 100 102]';
plot(x,Y,'k+')
X=[ones(size(x)) x];
[b,bint,r,rint,stats]=regress(Y,X)

那我就细致讲解下这几个参数

b–第一个参数

b =

   -7.2100
    0.6633

第一个参数就是我们最关心线性拟合的系 β 0 与 β 1 \beta_0与\beta_1 β0β1,实现的方法是利用最小二乘估计方法取拟合值和真实值之差得平方和,取它们最小的,也就是多元函数求极值问题!
在这里插入图片描述

bint–第二个参数

上面的代码,跑出来,发现有一部分是这个,这个呢!是参数的置信区间,有同学可能会问,置信区间是什么?就是系数误差的范围。比如,我测得第一个系数 β 0 = \beta_0= β0=-7.2100满足-20.8803到6.4602就是这个理儿!

bint =

  -20.8803    6.4602
    0.5747    0.7519



r–第三个参数

他就是残差,残差是指拟合值和实际值的差。
在这里插入图片描述

r =

    0.3620
   -1.6278
    0.7089
    0.3824
    0.7191
   -1.2707
    0.0660
    0.4027
    1.7394
    0.0762
   -1.5871
   -0.2504
    0.0863
   -0.2402
    0.4333


这也就是拟合后的函数残差的值。

rint–第四个参数

它是残差置信区间,使得残差值落在残差置信区间上,可以配上残差图。
在源程序(尾部)加上这条命令:

rcoplot(r,rint)

在这里插入图片描述
各位看官可能会看到有两个红,这就很有讲究了。先讲一下小圆圈,小圆圈当然就是残差,长度是残差区间。红色的值就说明可能这个值你不管用函数如何测量都可能不精准,简称预测不准它。如果偏离有问题。

有问题还分情况,如果是显著离开才算真正的有问题,什么叫做显著离开,就是指显著离开0这个范围。上面这个红色我们还能忍受,如果出现下图
在这里插入图片描述
那就可能有问题,如何出现呢?任意添加一个对应数据即可,对牢

x=[143 146 147 149 150 153 154 155 156 157 158 159 160 162 164]';
Y=[88 88 91 92 93 93 95 96 98 97 96 98 99 100 102]';

人为模拟一个beautiful girl的身高与腿长(代码片没添加),想添加,x添加一个,y添加一个即可,再运行。rint第四个参数大家就理解了!

stats–第五个参数


stats =

    0.9527  261.6389    0.0000    0.8918

第一个参数就是拟合优度,越接近1越好,代表的是回归函数学到样本的y值的学习率。看到95.27%瞬间就爱了,说明学到大约95%

在这里插入图片描述
第二个参数是F统计量,也就是用来假设检验的,F统计量越大越好,说明拟合的非常完美!
在这里插入图片描述
在这里插入图片描述
第三个参数是指接受拟合方程后,出错的概率的大小

0.0000

牛批!竟然是0!说明拟合非常好!
第四个参数就不用管了,叫做剩余标准差,老版本matlab还没有。

往期优秀博文:
[MATLAB]逐步回归详解(stepwise使用指南)
统计|如何理解线性回归分析中残差检验的基本步骤

Logo

开放原子开发者工作坊旨在鼓励更多人参与开源活动,与志同道合的开发者们相互交流开发经验、分享开发心得、获取前沿技术趋势。工作坊有多种形式的开发者活动,如meetup、训练营等,主打技术交流,干货满满,真诚地邀请各位开发者共同参与!

更多推荐