统计学10——方差分析
其中$\bar{\bar{x}}=\frac {\sum_{i=1}^{k}\sum_{i=1}^{n_{i}}x_{ij}} {n}$,是全部观测值的总和除以观测值总个数的结果。那么如何衡量这一关系的强度?总平方和$SSR=\sum_{i=1}^{k}\sum_{j=1}^{n_{i}}(x_{ij}-\bar{\bar{x}})^2$组间平方和$SSA=\sum_{i=1}^{k}n_{i}(
目录
知识结构
内容精读
1.基本概念
表面上,方差分析是检验多个总体均值是否相等的统计方法,但本质上它所研究的是分类型自变量对数值型因变量的影响。
误差分析
在方差分析中,数据的误差是用平方和来表示的。
反映全部数据误差大小的平方和称为总平方和,记为SST。
反映组内误差大小的平方和称为组内平方和,也称误差平方和或残差平方和,记SSE。
反映组间误差大小的平方和称为组间平方和,也称因素平方和,记为SSA。
基本假定
- 每个总体都应该服从正态分布。
- 各个总体的方差$\sigma^2$必须相同。
- 观测值是独立的。
2.单因素方差分析
(1)提出假设
$H_{0}:\mu_{1}=\mu_{2}=…=\mu_{k}$ 自变量对因变量没有显著影响
$H_{1}:\mu_{1},\mu_{2},…,\mu_{k}$不全相等 自变量对因变量有显著影响
(2)计算误差平方和
总平方和$SSR=\sum_{i=1}^{k}\sum_{j=1}^{n_{i}}(x_{ij}-\bar{\bar{x}})^2$
其中$\bar{\bar{x}}=\frac {\sum_{i=1}^{k}\sum_{i=1}^{n_{i}}x_{ij}} {n}$,是全部观测值的总和除以观测值总个数的结果。
组间平方和$SSA=\sum_{i=1}^{k}n_{i}(\bar{x_{i}}-\bar{\bar{x}})^2$
组内平方和$SSE=\sum_{i=1}^{k}\sum_{j=1}^{n_{i}}$
有$SST=SSA+SSE$
(3)计算统计量
构建统计量的目的就是比较组内均方与组间均方的差异。
SSA的均方也称组间均方,记为MSA。
$$MSA=\frac{SSA}{k-1}$$
SSE的均方也叫组内均方,记为MSE。
$$MSE=\frac{SSE}{n-k}$$
由此构造F统计量
$$F=\frac{MSA}{MSE}~F(k-1,n-k)$$
(4)统计决策
若$F>F_{\alpha}(k-1,n-k)$,则拒绝原假设H_{0},表明总体均值间有显著差异。
若$F<F_{\alpha}(k-1,n-k)$,则不拒绝原假设,不能认为总体均值间有显著差异。
(5)方差分析表
为使结果更加清晰,可以借助方差分析表:
误差来源 | 平方和 ss | 自由度 df | 均方 MS | F值 | P值 | F临界值 |
组间 | SSA | k-1 | MSA | MSA/MSE | ||
组内 | SSE | n-k | MSE | |||
总和 | SST | n-1 |
(6)关系强度测量
当方差分析结果为均值之间有显著差异时,也就意味着自变量与因变量间的关系实现输的。那么如何衡量这一关系的强度?就需要用SSA占SST的比例来表示,记作$R^2$。
$$R^2=\frac{SSA}{SST}$$
(7)多重比较
当拒绝原假设后,我们只能知道均值间不全部相等,那么究竟哪两个或哪几个均值是不等的,就需要进行多重比较。这里介绍最小显著差异法,缩写为LSD。
- 首先提出假设:$H_{0}:\mu_{i}=\mu_{j};H_{1}:\mu_{i}\neq{\mu_{j}}$。
- 计算检验统计量:$\bar{x_{i}}-\bar{x_{j}}$。
- 计算LSD,$LSD=t_{\alpha/2}\sqrt{MSE(\frac{1}{n_{i}} \frac{1}{n_{j}})}$
其中t的自由度为n-k。 - 若 $\left | \bar{x_{i}}-\bar{x_{j}} \right |>LSD $,则拒绝$H_{0}$。
3.双因素方差分析
当方差分析中涉及两个自变量时,称作双因素方差分析。
两个自变量分别为k行r列。
$\bar{x}_{i\cdot}$是行因素在第i个水平下各观测值的平均值,
$\bar{x}_{\cdot j}$是列因素的第j个水平下各观测值的平均值,
3.1无交互作用的双因素方差分析
(1)提出假设
对行提出假设
$H_{0}:\mu_{1}=\mu_{2}=…=\mu_{k}$ 行因素(自变量)对因变量没有显著影响
$H_{1}:\mu_{1},\mu_{2},…,\mu_{k}$不全相等 行因素(自变量)对因变量有显著影响
对列提出假设
$H_{0}:\mu_{1}=\mu_{2}=…=\mu_{r}$ 列因素(自变量)对因变量没有显著影响
$H_{1}:\mu_{1},\mu_{2},…,\mu_{r}$不全相等 列因素(自变量)对因变量有显著影响
(2)误差计算与统计量构建
$$SST=\sum_{i=1}^{k}\sum_{j=1}^{r}(x_{ij}-\bar{\bar{x}})^2$$
其中行因素产生的误差为SSR:
$$SSR=\sum_{i=1}^{k}\sum_{j=1}^{r}(\bar{x}_{i\cdot}-\bar{\bar{x}})^2$$
列因素产生的误差为SSC:
$$SSC=\sum_{i=1}^{k}\sum_{j=1}^{r}(\bar{x}_{\cdot j}-\bar{\bar{x}})^2$$
最后是除了行列因素外的误差,也称随机误差,记为SSE:
$$SSE=\sum_{i=1}^{k}\sum_{j=1}^{r}(x_{ij}-\bar{x}_{i\cdot}-\bar{x}_{\cdot j}+\bar{\bar{x}})^2$$
有$SST=SSR+SSC+SSE$
双因素方差分析表如下:
误差来源 | 误差平方和 ss | 自由度 df | 均方 MS | F值 | P值 | F临界值 |
行因素 | SSR | k-1 | MSR | $F_{R}$ | ||
列因素 | SSC | r-1 | MSC | $F_{C}$ | ||
误差 | SSE | (k-1)(r-1) | MSE | |||
总和 | SST | kr-1 |
PS:$MS=ss/df,F_{R}=\frac{MSR} {MSE},F_{C}=\frac{MSC}{MSE}$
(3)统计决策
若$F_{r}>F_{\alpha}$,则拒绝原假设,说明行因素对观测值有显著影响。
若$F_{c}>F_{\alpha}$,同样拒绝原假设,说明列因素对观测值有显著影响。
(4)关系强度
在双因素方差分析中,关系强度计算的为两个自变量合起来与因变量之间的关系。
$$R^2=\frac{SSR+SSC} {SST}$$
3.2有交互作用的双因素方差分析
在前面的分析中,假定两个因素对因变量的影响是独立的,但如果两个因素搭配在一起会对因变量产生一种新的效应,就需要考虑交互作用对因变量的影响。
误差来源 | 误差平方和 ss | 自由度 df | 均方 MS | F值 | P值 | F临界值 |
行因素 | SSR | k-1 | MSR | $F_{R}$ | ||
列因素 | SSC | r-1 | MSC | $F_{C}$ | ||
交互作用 | SSRC | (k-1)(r-1) | MSRC | $F_{RC}=\frac{MSRC}{MSE}$ | ||
误差 | SSE | kr(m-1) | MSE | |||
总和 | SST | kr-1 |
ps:m为行变量中每个水平的行数。
$$SST=\sum_{i=1}^{k}\sum_{j=1}^{r}\sum_{l=1}^{m}(x_{ij}-\bar{\bar{x}})^2$$
$$SSR=rm\sum_{i=1}^{k}(\bar{x}_{i\cdot}-\bar{\bar{x}})^2$$
$$SSC=km\sum_{j=1}^{r}(\bar{x}_{\cdot j}-\bar{\bar{x}})^2$$
$$SSRC=m\sum_{i=1}^{k}\sum_{j=1}^{r}(\bar{x}_{ij}-\bar{x}_{i\cdot}-\bar{x}_{\cdot j}+\bar{\bar{x}})^2$$
SSE=SST-SSR-SSC-SSRC
名词解释
方差分析
方差分析,又称“变异数分析”或“F检验”,用于两个及两个以上样本均值差别的显著性检验。它是通过检验各总体的均值是否相等来判断分类型自变量对数值型因变量是否有显著影响。可以分为单因素方差分析与双因素方差分析。
因素
因素即因子,也就是所要检验的对象。因素变量也称控制变量,根据控制变量的多少,可以把方差分析分为单因素方差分析(一个控制变量)和多因素方差分析(两个及两个以上控制变量)。
组内误差
由于抽样的随机性所造成的误差,即来自水平内部的数据误差,反映一个样本内部数据的离散程度,只含有随机误差。
组间误差
来自不同水平之间的数据误差,这种误差可能是由抽样本身形成的误差,也可能是由水平本身的系统性因素造成的系统误差,因此,组间误差是随机误差和系统误差的总和,反映不同样本之间数据的离散程度。
随机误差
随机误差是指在因素的同一水平(总体)下,样本各观察值之间的差异,它是由样本本身所形成的误差。
系统误差
系统误差是因素的不同水平(不同总体)之间观察值的差异,是由于水平本身的系统性因素所造成的。
总平方和
总平方和是反应全部数据误差大小的平方和,它反应了全部观测值的离散状况。
组内平方和
是反应组内误差大小的平方和,也称误差平方和或残差平方和,它反映了每个样本内各观测值的离散状况。
组间平方和
是反应组间误差大小的平方和,也称因素平方和,它反映了样本均值之间的差异程度。
单因素方差分析
根据所分析的分类型自变量的多少方差分析可分为单因素方差分析和双因素方差分析,当方差分析中只涉及一个分类型自变量时称为单因素方差分析。单因素方差分析研究的是一个分类型自变量对一个数值型因变量的影响。
双因素方差分析
当方差分析中涉及两个分类型自变量时,称为双因素方差分析。双因素方差分析有两种类型:一个是无交互作用的双因素方差分析,它假定因素A和因素B的效应之间是相互独立的,不存在相互关系;另一个是有交互作用的双因素方差分析,它假定因素A和因素B的结合会产生出一种新的效应。
交互作用
交互作用是指几个因素搭配在一起会对因变量产生一种新的影响的作用。
开放原子开发者工作坊旨在鼓励更多人参与开源活动,与志同道合的开发者们相互交流开发经验、分享开发心得、获取前沿技术趋势。工作坊有多种形式的开发者活动,如meetup、训练营等,主打技术交流,干货满满,真诚地邀请各位开发者共同参与!
更多推荐
所有评论(0)