统计学基础（四）—卡方检验怎么用？

配对卡方检验：目的：研究同一群人在实验前测和实验后测是否发生了变化前提：1、观测变量为二分类变量，且两类之间互斥2、分组变量包含2个分类，且相关。（当分组变量有3个及以上分类时，可使用Cochran’s Q检验）操作：结果分析：首先，从正对角线得出的结果是，25名研究对象中有8名干预前喝酒，干预后还继续进行喝酒的人；6名干预前不喝酒干预后还是不喝酒的的人...

Arvin Ou

14355人浏览 · 2020-03-11 18:16:21

Arvin Ou · 2020-03-11 18:16:21 发布

1 配对卡方检验：

目的：研究同一群人在实验前测和实验后测是否发生了变化
前提：
1、观测变量为二分类变量，且两类之间互斥
2、分组变量包含2个分类，且相关。（当分组变量有3个及以上分类时，可使用Cochran’s Q检验）
操作：

在这里插入图片描述

结果分析：

在这里插入图片描述

首先，从正对角线得出的结果是，25名研究对象中有8名干预前喝酒，干预后还继续进行喝酒的人；6名干预前不喝酒干预后还是不喝酒的的人。从非对角线（黄色背景）中可以看到干预前喝酒干预后不喝酒的人有11人；干预前不喝酒的干预和喝酒的有0人。干预前喝酒的人数占到了76%，干预后喝酒的人数占比下降到了32%。其中干预前喝酒的人干预后不在喝酒占比 44%，有11个人干预后不再喝酒。而干预前不喝酒的人干预后依然都不喝酒。

在这里插入图片描述

当非对角线观测人数总和<25时，p值以精确显著性（2-sided检验）为准。

结果撰写：
如果是根据二项分布计算McNemar检验的精确P值：本研究共招募了25名研究对象参与有关戒酒的干预试验，干预前饮酒者和不饮酒者各占76%（19列）和24%（6例）。干预后，不饮酒比例增加到68%（17例），饮酒的比例降低到了32%（8例）。11名饮酒者在干预后戒酒。采用McNemar精确检验发现，干预前后不饮酒者比例的差异有统计学意义，P=0.001。
（如果是用卡方计算，最后就写：采用校正卡方检验发现，…）

2 卡方拟合优度检验：

目的：检验收集到的数据是否符合指定分布
前提：
1、存在一个分类变量
2、观测值之间相互独立
3、样本量足够大，要求最小样本量的任一预测频数大于5.
注意：卡方拟合优度检验分为等比例和自定义比例两种。等比例是指：被研究对象在一段时间内做某件事的概率相同；自定义比例是指：研究者在一段时间内做某件事的概率不同。比如：一个患者若在一周内去医院就诊的可能性相同，那么就是等比例，反之就是自定义比例。
操作：
1、等比例

2、自定义比例：

在此处选择总体的（或期望的）分布比例情况：我期望的农村，城镇，中小城市，大城市的比例为15%、25%、40%、20%。

结果解释：

在这里插入图片描述

由上图可见0个单元具有小于5的期望频率。单元最小期望频率为29.5。
然后看每一类的残差表，其中残差越小则表示拟合优度越好。结果显示卡方=19.607，P<0.001，说明本研究数据不符合指定数据分布情况。

结果撰写：
本研究共招募197位研究对象，其中来自农村的研究对象为33人，来自城镇的研究对象为74人，来自中小城市的研究对象为59人，来自大城市的研究对象为31人。，采用卡方拟合优度检验判断这些研究对象的体型分布是否与期望一致。结果显示，本研究的最小预测频数为29.5，可采用卡方拟合优度检验，卡方=19.607，P<0.001，说明本研究数据不符合指定数据分布。

3 比值比（OR值）

目的：探索不同分组的人群发生某件事的概率是否存在差异
前提：
1、自变量和因变量都是二分类变量
2、观测间相互独立
操作：
结果分析：

如果比值>1，且置信区间不包括1，则说明男生比女生选择创业的几率更高；反之，女生比男生的创业几率更高。若果置信区间包括1，则说明男生女生之间不存在差异。

结论撰写：
本次研究共招募197位研究对象，其中男性116人，女性81人。与女性相比，男生选择创业的几率不高于女性。比值比为0.610，95%CI：0.336-1-1.110

4 相对危险度（2*2计算）RR值

目的：想要研究发生某件危险的事与发生另外一件危险的事之间的关系。（比如想要探索幽门螺旋杆菌感染与发生消化道肿瘤之间的关系）
前提：
1、因变量与自变量均为二分类变量
2、各观测间相互独立
3、只有特定的研究设计才能计算相对危险度，如前瞻性或回顾性队列，随机对照试验。
操作：

在这里插入图片描述

结果分析：

先通过观察交叉表来看患有幽门螺旋杆菌的350人中有35人患有消化道肿瘤，不患有幽门螺旋杆菌的350人中仅有9人患病。由此可以初步判断，患有幽梦螺旋杆菌的人患消化道肿瘤的风险更高。

在这里插入图片描述

这里要根据需求来看相对风险值，因为本次要研究患幽门螺旋杆菌与患消化道肿瘤的关系，所以看Yes那一列即可。结果解读与OR值一致，可见患幽门螺旋杆菌的患者比不患有幽梦螺旋杆菌的患者患上消化道肿瘤的可能性高3.889倍。

5 两个有序变量相关性的卡方检验

目的：分析两个有序变量之间是否有线性变化趋势（比如分析学历的高低与工作两年后的年薪等级之间的关系）
前提：
1、其中一个变量为有序分类变量
2、另一个变量为有序分类变量或二分类变量
注：趋势检验可以使用Mantel-Haenszel卡方检验或Cochran-Armitage趋势检验。M-H检验也称线性趋势检验或定序趋势检验。M-H与C-A的区别在于，前者要求一个是有序，另一个是二分类或有序；后者要求一个是有序，另一个是二分类。
操作：
结果分析：

这张表可以看简单分布情况
在这里插入图片描述

这张表观察线性与线性组合，Sig一列为Mantel-H检验结果，可见P=0.009>0.05，可知老家类型与工作地域重要程度存在线性关系。还可以继续看pearson表，看是正向还是负向。

在这里插入图片描述
由此可见存在正向轻度相关。

结果撰写：
采用Mantel-Haenszel卡方检验判断老家类型与工作地域重要性是否存在线性关系。老家类型1-4，工作地域重要性程度1-5。Mantel-Haenszel卡方检验结果显示，老家类型与工作地域重要性之间存在线性关系。卡方=6.736，p=0.009<0.05，Pearson相关结果显示，R=0.185，P=0.09，说明老家类型与工作地域重要性程轻度正相关。
绘制散点图：

把数据转化为频率形式

在这里插入图片描述

结果：

在这里插入图片描述

6 分层分析：

使用原因：
比如我们要研究某种治疗措施是否会降低死亡风险。招募了200名实验对象，一组是对照组，一组是实验组。其中实验组中年轻人80人，老年人20人。对照组中老年人80人，实验组20人。经过一段时间之后对照组18人死亡（2人为年轻人，16人为老年人），实验组12人死亡（8人为年轻人，4人为老年人）。如果我们直接计算，对照组的死亡率是18%，实验组的死亡率是12%，则计算处理因素的RR值为12%/18%，即0.67。认为处理是有效的，能够降低33%的死亡风险。
**但是！！！**我们应该要注意到，我们的年龄和死亡之间的关系是非常密切的，年龄越大死亡的概率也就越高。那么此时再回过头来看我们实验组与对照组之间的分布就可以发现问题所在了。这类因素称之为混杂因素。如果我们在实验组与对照组进行分层，在计算，可以看到实验组当中年轻人的死亡率=8/80=0.1，对照组当中年轻人的死亡率为2/20=0.1。同理，可计算老年人的死亡率也为0.1。因为各层的RR值一致，所以可以使用M-H法计算合并效应值（若不一致，我们应当分层报告效应值），再将合并后的RR值与之前做的粗RR值或OR值进行比较，若差值在0.1以上或在0.5以上，认为调整后的RR值与粗RR值不一致（此时要结合实际情况进行判断）。
局限性：
若混杂因素不止一个，那么此时分层就要非常的麻烦，若有n个混杂因素，则分层的数量则为2的n次。同时每一层的样本量就会很小。另外，如果是连续变量，对其进行分类就会丢失信息。

7 分层卡方检验：

原因：与分层检验一样
操作：

在这里插入图片描述

结果分析：

在这里插入图片描述

由上面两张图可以看出：
男性Pearson 卡方=8.433，P=0.04<0.05, OR=2.769,95%CI:1.368-5.670,男性抽烟是引发某一种疾病的危险因素。
女性解读同理。

在这里插入图片描述

上图是采用两种方法对于不同分层下OR值是否一致进行检验。P均小于0.05，可见各层级之间的OR值存在着异质性。

在这里插入图片描述

上图为分层卡方检验的结果，前者是后者的改进。两个检测结果P<0.05，可见吸烟与发生此种疾病的风险有关。此时卡方值的大小只能推断是否相关，不能推断大小。

在这里插入图片描述

上图的结果是认为各层OR同质，进而合并OR值的结果，分析方法同上面分析OR值一致。

注：本次检验发现各层的OR值不同质因此不能合并计算OR值，需要分层报告。

结果撰写：

若层间OR值不同质，则结果描述如下：
Test of Homogeneity of Odds Ratio结果显示P<0.05，提示层间的OR值具有异质性，此时不宜合并OR值。因此在按照性别进行分层后，在男性中，吸烟是该疾病发生的一个危险因素，OR=2.769，95% CI为1.368-5.607，P=0.004，即吸烟者该疾病的发生风险为非吸烟者的2.769倍；而在女性中，吸烟对该疾病的发生没有影响，OR=0.463，95% CI为0.097-2.214，P=0.326。
若层间OR值同质，则结果描述如下：（本例研究不适用于此种情况，此处仅为举例说明）
Test of Homogeneity of Odds Ratio结果提示层间的OR值具有同质性（P>0.05），因此在控制了性别分层因素的影响后，吸烟因素对于该疾病的发生是一个危险因素，其合并OR=1.935，95% CI为1.065-3.519，P=0.047。
注意：对于前述“3. 分层卡方检验结果”和“4. 基于Mantel-Haenszel方法估算的OR值的检验结果”，两者的P值在结论上应该是保持一致的。

根据《医学统计学》（孙振球主编）教科书上的介绍，分层分析OR值可采用Mantel-Haenszel方法进行估计，并用Mantel-Haenszel卡方检验的χ2统计量直接对OR值进行假设检验，同时采用Miettinen法计算OR值的95%可信区间，因此此处可报告Mantel-Haenszel卡方检验的P值0.047。
而SPSS采用的是Woolf法计算OR值的95%可信区间，并对其进行检验，此时P=0.030。由于两者计算方法不同，因此P值的大小稍有差异，但其结论是一致的。