数据分析新技能：如何进行Mann-Whitney U检验

Mann-Whitney U检验是一种强大的非参数统计方法，适用于比较两个独立样本的分布，特别是当数据不满足正态分布或存在异常值时。本文详细介绍了Mann-Whitney U检验的起源、原理和操作步骤，并通过一个具体的案例展示其实际应用。

蓝皮怪

5192人浏览 · 2024-05-22 09:39:29

蓝皮怪 · 2024-05-22 09:39:29 发布

Mann-Whitney U检验

Mann-Whitney U检验是一种非参数统计方法，用于比较两个独立样本的分布。它特别适用于数据不满足正态分布或存在异常值的情况，是t检验的非参数替代方法。

一、起源

Mann-Whitney U检验由美国统计学家亨利·曼恩（Henry Mann）和德怀特·惠特尼（Donald Whitney）于1947年提出。它是Wilcoxon秩和检验的独立样本版本，旨在提供一种不依赖于正态性假设的检验方法。

二、原理

Mann-Whitney U检验通过比较两个独立样本的秩次，评估它们是否来自同一分布。它假设两个样本的分布形状相同，只是位置参数不同。检验统计量U的计算公式为：

$n_1 n_2 + \frac{n_1 (n_1 + 1)}{2} - R_1$

其中：

$n_1$ 和 $n_2$ 分别为两个样本的样本量。
$R_1$ 为第一个样本的秩次和。

计算出的U值需要与标准的U分布表进行比较，以确定是否拒绝零假设。较小的U值表明两个样本分布有显著差异。

三、步骤

数据准备：收集两个独立样本的数据。
合并排序：将两个样本的数据合并并按大小排序，分配秩次。
计算秩次和：分别计算两个样本的秩次和。
计算U值：使用公式计算U值。
确定显著性水平：选择显著性水平，查找U分布表确定临界值，比较U值与临界值。

四、应用场景

Mann-Whitney U检验广泛应用于各个领域，特别是在以下情况下：

比较两种治疗方法对患者效果的差异。
分析不同教学方法对学生成绩的影响。
评估不同市场策略对客户满意度的影响。

五、案例分析

假设我们有一组数据，包含两种不同教学方法下学生的考试成绩。我们希望通过Mann-Whitney U检验评估这两种教学方法对学生成绩的影响。数据如下：

教学方法A组：85, 78, 92, 88, 76
教学方法B组：80, 74, 88, 82, 78

数据准备：

教学方法A组：85, 78, 92, 88, 76

教学方法B组：80, 74, 88, 82, 78
合并排序：

合并两个样本并排序：

74, 76, 78, 78, 80, 82, 85, 88, 88, 92
计算秩次和：

计算两个样本的秩次和：

教学方法A组秩次和：

$3 + 5 + 6 + 9 + 10 = 33$

教学方法B组秩次和：

$1 + 2 + 4 + 7 + 8 = 22$
计算U值：

使用公式计算U值：

$U_A = n_A n_B + \frac{n_A (n_A + 1)}{2} - R_A = 5*5 + 5*6/2 - 33 = 12$
确定显著性水平：

在显著性水平0.05下，查找U分布表得出临界值为8。由于U值12 > 8，我们不能拒绝零假设，即两种教学方法对学生成绩没有显著差异。

六、Python代码示例

使用Python进行Mann-Whitney U检验，可以使用scipy库中的mannwhitneyu函数：

import numpy as np
from scipy.stats import mannwhitneyu

# 数据准备
group_A = np.array([85, 78, 92, 88, 76])
group_B = np.array([80, 74, 88, 82, 78])

# 计算Mann-Whitney U检验
u_stat, p_val = mannwhitneyu(group_A, group_B)
print(f"U统计量: {u_stat}")
print(f"p值: {p_val}")

七、R代码示例

使用R进行Mann-Whitney U检验，可以使用wilcox.test函数：

# 数据准备
group_A <- c(85, 78, 92, 88, 76)
group_B <- c(80, 74, 88, 82, 78)

# 计算Mann-Whitney U检验
result <- wilcox.test(group_A, group_B)

print(paste("U统计量:", result$statistic))
print(paste("p值:", result$p.value))