반응형

Biostat 논문을 작성하면서 한 환자에 대한 두 전문가의 의견에 대한 일치도를 통계적으로 검정해야할 일이 있다. 

 

즉, KAPPA 통계량은 chance에 의한 Agreement와 observed agreement를 비교한다.

 

 

Kappa 통계량을 구하는 식은 다음과 같다.

 

K = (Proportion of observed agreement - Proportion of agreement by chance) / (1 - Proportion of agreement by chance)

 

 

Kappa 통계량의 예시를 구하기 위해서 다음과 같은 예시를 들고 왔다.

(출처: Biostatistics and Epidemiology)

 

환자는 medical therapy(이하 Med) 혹은 침습 치료(이하 Sur)를 받을 수 있고,

둘 중 어떤 것이 더 각 환자에게 적절한지 두 전문가가 치료법을 선택하고자 한다.

 

그럼 아래와 같은 표를 얻을 수 있다.

환자 전문가 1 전문가 2
A Med Sur
B Sur Sur
C Med Med
D Med Med
E Sur Med
... ... ...

 

 

📍총 661 명의 환자가 있었고, 두 전문가가 아래와 같은 판단을 내렸다.

그럼 두 전문가의 의견이 일치한 cell은 a 셀d 셀,

두 전문가의 의견이 일치하지 않은 cell은 b 셀 c 셀 이다.

 

📝 a 셀과 d 셀의 expected number by chance를 구해보자.

 

❗위 2X2 테이블의 카테고리가 독립이라 했을 때,

환자가 expert1에서 medical일 확률 P(Expert1∩Med)=P(Expert1)*P(Med) 이므로,

expert1에서 medical일 n수는 (=Expected frequency를 구하는 식은) 다음과 같다.

 $$ N \times P(Med) \times P(Sur) = N \times [ \frac{a+c}{N} \times  \frac{a+b}{N}  ] $$

 

1. a 셀의 expected number by chance를 a'라고 표기한다면,

a'=(a+c)(a+b)/N

 

2. d 셀의 expected number by chance를 d'라고 표기한다면,

d'=(c+d)(b+d)/N

 

따라서 a'와 d'는 각각 다음과 같다.

 

$$ a' : \frac{494 \times 488}{661}=365 $$

$$ d' : \frac{167 \times 173}{661}=44 $$

 

이에 따라, the proportion of agreement expected by chance alone[=P(exp)]은

$$  \frac{365+44}{661}=0.619 $$

 

 

📝이번에는 Proportion of observed agreement를 구해봅시다.

 

이는 쉽게 구할 수 있는데, a셀과 d셀이 의견 일치 셀이므로, 

Proportion of observed agreement를 P(obs) 라고 표기한다면

$$ P(obs)= \frac{397+76}{661}=0.716 $$

 

 

 

📖 위에서 구한 수치를 Kappa 통계량 식에 대입해봅시다.

K = (Proportion of observed agreement - Proportion of agreement by chance) / (1 - Proportion of agreement by chance)

 

여기에서 Proportion of observed agreement는 0.716이고,

Proportion of agreement by chance는 0.619이므로,

$$ Kappa= \frac{0.716-0.619}{1-0.619}= \frac{0.097}{0.381}=0.25  $$

 

 

❓결론: Kappa 통계량은 0.25이다.

두 전문가의 의견이 완전 일치할 때에 Kappa는 1이 나오고, 불일치할 때에는 0이 나온다.

따라서, 0.25는 높은 일치도가 아니라고 할 수 있다.

반응형
반응형

Agreement를 평가함에 있어 paired t-test를 사용하는 논문들이 몇 있다.

임상논문에서 의료기기가 측정한 것의 일치성, 혹은 의료행위자 A와 B가 측정한 것이 비슷한지를 측정하는 일들이 꽤 많은데, 여전히 많은 논문들에서 paired t-test에서 p>0.05 라는 통계 결과를 얻었을 때 '두 기기에서 측정한 수치는 일치한다.' 혹은 '의사A와 의사B가 측정한 수치는 일치한다.' 라는 결과를 내린다.

 

통계를 배울 때, "짝지어진 두 모집단의 차이를 보고 싶을 때는 paired t-test를 사용한다." 라고 많이들 배우는데, 아마 이렇게 배우기(?) 때문에 '그럼 paired t-test의 p-value가 0.05보다 크면 두 집단 간 차이가 없다는 것이겠네?'라고 많은 사람들의 생각이 이어지는듯하다.

 

그러나 내가 통계적으로 살펴보고 싶은 것이 "Agreement"라면 paired t-test를 사용하는 것은 잘못 되었다.

 

그 이유에 대해서는 다음 두 개의 시나리오를 이용해 설명해보도록 하겠다.

위 시나리오의 출처 논문은 "Why using a paired t test to assess agreement is problematic? by Nikolaos Pandis

https://doi.org/10.1016/j.ajodo.2021.07.001"

 

시나리오A와 시나리오B에는 시간 차이를 두고 같은 subject를 측정한 Time1 수치와 Time2 수치가 있다. 시나리오A와 시나리오B 모두 Time1과 Time2에서 측정된 수치의 평균은 10.45로 동일하다.

 

✔️먼저 시나리오A를 살펴보자.

시나리오A에서 Time1과 Time2의 평균은 10.45로 동일하므로, 차이 d의 평균도 0이고 따라서 paired t-test를 진행하면 p-value가 1로 나올 것이다. 

그럼 Time1과 Time2가 동일한 수치를 냈다고 결론지을 수 있는가?

시나리오A의 각 subject를 대상으로 시간 차이를 두고 측정한 Time1과 Time2는 [-9 ~ 12] 까지 꽤 큰 차이가 있다. 

 

✔️이번에는 시나리오B를 살펴보자. 

여기에서도 마찬가지로 Time1과 Time2의 평균은 10.45로 동일하며, 차이 d의 평균 역시 0이다. 그렇기에 시나리오B의 데이터로 paired t-test를 진행하면 p-value 1을 얻을 것이다. 시나리오A와 다른 점은 각 subject에서 Time1과 Time2의 차이가 [-2 ~ 1]로 훨씬 작다는 점이다.

 

paired t-test 결과, 시나리오B는 시나리오A와 같이 p-value가 1이므로 두 경우 모두 "불일치의 증거가 없다. -> 두 측정치는 일치한다."라고 결론 내릴 수 있을까?

Paired t-test의 귀무가설은 "두 그룹의 모평균의 차이는 없다." 이므로, 시나리오A에서 p-value가 1이기 때문에 귀무가설을 기각할 수 없고, 따라서 불일치의 증거가 없다는 잘못된 해석이다.

 

❌두 측정 간의 agreement를 통계적으로 측정하고자 할 때, paired t-test를 사용한다는 것부터 잘못되었다. 직관적으로도 시나리오A와 시나리오B에서 같은 결과를 내는 것은 잘못 되었다고 보인다.

 

✔️그럼 왜 이런 문제가 발생할까?

이러한 문제는 각각의 observation을 살펴보는 것이 아니고 "평균"을 살펴보기 때문에 발생한다. 예를 들어, 임상시험처럼 '투여군'과 '대조군' 간, 정말 전반적인 "그룹" 간의 차이가 중요할 때에는 paired t-test를 사용할 수 있다. 그러나 각 observation의 차이가 중요한 Agreement를 살펴보고자 할 때 paired t-test를 사용하면 위의 예시처럼 평균의 함정에 빠질 수 있다.

반응형

+ Recent posts