统计学小本本 🎉

一个关于研究中遇到的统计学概念及其合理应用场景的小本本。

多重比较(Multiple comparisons)

多重比较是指通过多个统计测试来做出推论的方式。举个 🌰,为了验证 北京人比四川人更能吃辣 有没有显著性, 我们想测试三个指标:食量饮水量主观辣度。每个指标都在同一个实验数据集(两组分别为北京人和四川人)下进行测试,每个指标都有自己的显著性 $p$ 值。

Bonferroni修正 (Bonferroni correction)

这是在多重比较下对每个 $p$ 值进行修正,从而降低可能的假阳性错误(false positive error)。因为多重测试中显著性会被高估(有至少一个测试呈现显著性的概率相比单个测试来说变大了,类比多重贝努利实验)。 修正方式非常简单,

$$p_b = p / m$$ $m是指标的数量,在上个 🌰 里,$$m = 3$.

评分者间信度(Interrater reliability)

今天(2018年4月15日)在看一篇论文(关于电子病历应用中的问题)时偶然看到了这个术语,感觉这是个挺容易被忽略的概念,尤其对于我们工程学科(非医学,生物或者统计学)的学生来说。我们平时实验里会用相关性系数(correlation coefficient)来测试特征间的相关性,但是从实验设计的角度,我们经常忽略从严格地统计学角度比较不同模型表现的问题。这种表现可能是因为模型的差异,也可能是因为开发或者测试模型所用数据的问题,或者甚至是实验数据收集方式的问题。Interrater reliability就是用不同数据收集者之间一致性来度量数据可信度的一种概念。

一致性百分比(Percentage Agreement)

举个例子,甲跟乙分别对100个🍎的质量进行评价,怎么判断他们的评价是不是客观? 一种方法就是比较他们一致的评价占整个数量的百分比,这个叫做Percentage Agreement。假设甲认为80个苹果是好的,乙只认为其中70个是好的,那么他们的Percentage Agreement就是0.9。有人会问为嘛不是0.7,因为在坏苹果中,有20个甲乙的评价都是坏的,所以甲乙之间一致性的评价有90个(可以是好苹果也可以是坏苹果)。

$$Pr(a) = 90 / 100 = 0.9$$ $a$这里表示actual agreement,也就是一致评价的总量。

Cohen’s Kappa

后来有个统计学家Cohen发现了问题,假如这俩人随便瞎猜呢,那么他们针对一个苹果,评价一致的概率就有$$0.5 * 0.5 + 0.5 * 0.5 = 0.5$$, 有50%的可能他们会猜得一样。这样就会导致Percentage agreement被高估。所以这人发明了著名的Cohen’s Kappa $\kappa$,相关性系数的一种,来修正被随机性的一致结果高估的Percentage agreement。具体算法请参见[1]。但是这个系数也有自己的缺陷,它假定了两个测试者是相互独立互不影响的,并且使用边际概率分布来估计随机性的一致结果的概率(这个是不准确的),所以这种修正也是不精确的。

举个例子,如果甲跟乙师从同一个坑爹师傅,那么可能他们犯错的模式都会很像,造成的结果就是Percentage agreement很高,但是Cohen’s Kappa很低。光从Cohen’s Kappa一个数值很难反向推断造成这种情况的原因(也可能甲事先看到了乙的评价,造成他的评价不再独立)。

实际应用中,Percentage agreement和Cohen’s kappa通常结合起来使用。前者在医学研究中的接受阈值大概是0.8而后者为0.6,低于这个数值的数据通常是不可信的,基于这些数据的推论也就靠不住了。

Coefficient of Variety

这个概念是为了比较数据集之间的一致性。


  1. Interrater reliability: the kappa statistic

Comment