Friedman test以及后续检验Nemenyi test和Bonferroni-Dunn test

题目：Friedman test以及后续检验Nemenyi test和Bonferroni-Dunn test在做算法对比时，往往需要对实验结果进行统计检验。Friedman test是一种常用的检验，用来比较k个算法在N个数据集上的整体表现性能。但Friedman test只能给出k个算法的性能之间是否存在差异，如果存在差异，还需要进行“后续检验”(post-hoc test)，常用的后续检验方

jbb0523

19431人浏览 · 2020-11-23 12:22:30

jbb0523 · 2020-11-23 12:22:30 发布

题目：Friedman test以及后续检验Nemenyi test和Bonferroni-Dunn test

在做算法对比时，往往需要对实验结果进行统计检验。Friedman test是一种常用的检验，用来比较k个算法在N个数据集上的整体表现性能。但Friedman test只能给出k个算法的性能之间是否存在差异的结论，如果存在差异，还需要进行“后续检验”(post-hoc test)，以得出哪些算法的性能之间存在统计上的差异，常用的后续检验方法包括Nemenyi test和Bonferroni-Dunn test。

Nemenyi test适用于对比k个算法相互之间的性能(when all classifiers are compared to each other)，而Bonferroni-Dunn test适用于将某个算法与其余k-1个算法对比(when all classifiers are compared with a control classifier)，二者都是将各个算法平均排名之差与某域值（critical difference, CD)对比，若大于该域值则说明平均排名高的算法统计上优于平均排名低的算法，反之则二者统计上没有差异。

这个域值CD的计算方式如下：

$CD = q_{\alpha} \sqrt{\frac{k(k+1)}{6N}}$

其中，k为参加对比的算法个数，N为数据集个数，常用的 $q_{\alpha}$ 值可通过下表查得，其中表(a)对应Nemenyi test，表(b)对应Bonferroni-Dunn test，#classifiers为算法个数k：

这里重点想谈的是这种统计检验方法存在的问题，注意到由上面公式计算出来的 $q_{\alpha}$ 一般都大于1，这意味着什么呢？如果在所有数据集上，你所提出的算法一直排名第一，几个对比算法分别一直排名第二、第三、第四……，很明显你所提出的算法优于所有对比算法（就好像你每次考试都是班级第一，肯定比每次都考班级第二的同学优秀，每次考试则对应这里的一个数据集）；但是，你所提出的算法与一直排名第二的算法平均排名之差只有1，会小于 $q_{\alpha}$ ，表示二者没有显著差别，这明显有悖于常理。也就是说，这种统计检验方法不仅要求你自己的算法在每个数据集上的排名要靠前，还要求其它对比算法在每个数据集上的排名随机的比较差，这样才能保证对比算法的平均排名都比较低，进而保证你自己的算法与对比算法的平均排名之差大于域值CD。

为了直观起见，我们来计算一下 $q_{\alpha}$ ，看看当数据集个数N大概取多少个时CD值才会小于1。一般来说，论文中对比算法选4到5个，加上我们自己所提的算法k的取值就是5或6，我们计算 $\alpha=0.05$ 时的CD值，即查表时看 $q_{0.05}$ 那一行。