반응형

 

지난 글에서 통계 검정에서 빼놓을 수 없는 유의확률 (P-value)에 대한 잘못된 해석, 사용 등을 살펴보았다.

2022.12.25 - [STATISTICS] - Effect size : 효과 크기와 유의확률 (p-value) (1)

 

Effect size : 효과 크기와 유의확률 (p-value) (1)

효과크기를 논하기 전에 P-value = 유의확률에 대해 언급하지 않을 수 없다. 어떤 통계적인 결론을 내릴 때 가장 많이 사용되는 지표인데, 정말 통계를 배우면서 지겹도록(?) 많이 나오고, 많이 사

bioinformatics-kleis.tistory.com

 

지난 글에서 <p-value가 더 작음 ≠ 더 큰 차이> 라는 것을 살펴보았다면,

이번 글에서는 차이를 보여주는 Effect Size 에 대해 살펴보도록 하겠다.

 

Effect size 의 정의에 대해 먼저 살펴보자.

"Effect size 효과크기"는 변수들 사이의 관계가 얼마나 의미 있는지, 혹은 그룹들 사이의 차이가 얼마나 의미 있는지를 나타내는 지표이다.

 

따라서 Effect size가 크다면, 연구 결과가 significance 함을 나타내고,

만약 p-value가 매우 작더라도, effect size가 작게 나온다면 연구 결과는 제한적임을 알 수 있다.

 

 

✔️통계적 유의성(Statistical significance)P -value에 의해 알 수 있고,

✔️실제적 유의성(Practical significance)effect size 효과크기에 의해 알 수 있다.

 

따라서,

1) P -value로 통계적으로 유의한지 살펴본 후에,

2) effect size로 정말 실질적으로 적용가능한지 살펴보는 순서로 연구를 진행하는 것이 좋다.

+ 신뢰구간도 제시하는 것이 좋다.

 

예를 들어,

어떤 두 그룹의 점수 차이(3점)가 있는지 알고 싶어 유의수준 5% 하에서 t-test를 진행하여 p-value가 0.002가 나왔다면,

두 그룹의 차이가 통계적으로 유의하다는 결론을 내릴 수 있다.

 

P -value가 0.002라는 것은 두 그룹이 차이가 없다는 귀무가설 하에 3점이라는 차이를 보일 확률이 0.002라는 것이다.

앞 글에서 이 확률이 두 그룹이 얼마나 큰 차이가 있음을 보여주는 것이 아니라 했다.

 

따라서 이 3점이라는 차이가 얼마나 큰 차이인지, 아니면 작은 차이인지 확인하기 위해서 효과 크기 Effect Size를 사용해야 한다.

 

앞선 글에서 했던 얘기지만 너무 중요해서 다시 한 번 강조했다.

 

 

아무튼 Effect size 효과크기는 어떻게 측정할 수 있을까?

가장 많이 사용되는 효과 크기 측정법은

(1) Cohen's d (2) Pearson's r 이 있다.

 

 

Ⅰ. Cohen's d 

- 두 그룹의 difference (차이) 가 얼마나 있는지, difference size를 측정한다.

 

Cohen's d 를 구하는 식은 다음과 같다.

$$ d= \frac{\bar{x}_{1}-\bar{x}_{2}}{s} $$

그룹1의 평균에서 그룹2의 평균을 빼고, 이 차이를 표준편차로 나눠 준 값이다.

 

위 수식의 표준편차는 다음과 같이 세 가지 중 연구 설계에 맞게 사용하면 된다.

  • pooled standard deviation
  • control group의 standard deviation (사례-대조군 연구와 같이 대조군 vs 사례군 비교할 때)
  • pre-test data의 standard deviation (반복측정 연구와 같이 pre-test 와 post-test 를 비교하고 싶을 때)

 

Ⅱ. Pearson's r

- 두 변수의 관계가 얼마나 강한지, linear reliationship 정도를 측정한다.

 

Pearson's r 을 구하는 식은 다음과 같다.

$$ \rho_{X,Y}=\frac{cov(X,Y)}{\sigma_{X}\sigma_{Y}} $$

어디서 많이 본 것 같은데?

상관관계를 보고자 할 때 사용하는 상관계수를 구하는 식과 같다.

 

 

 

❗위와 같이 Effect size를 구했는데, 그럼 그 해석은 어떻게 하냐?

    보통 아래 표와 같이,

    cohen's d 의 경우는 0.2이하면 효과크기가 작다고 할 수 있고,

    0.5 정도면 medium, 0.8보다 크면 효과 크기가 커서 두 그룹의 차이가 정말로 크다고 할 수 있다.

출처: Scribbr

Pearson's r 을 해석하는 것도 마찬가지이다. 

상관계수를 해석할 때 처럼, 0에 가까워질수록 두 변수의 상관관계는 약한 것이고, 

0으로부터 멀어질수록 두 변수의 상관관계는 강하다고 할 수 있다.

 

따라서 내 연구 주제가 그룹별 차이를 보고 싶거나, 두 변수의 관계를 보고 싶을 때에는

p-value를 제시하고, 효과 크기, confidence interval을 함께 제시하는 것이 좋다.

 

그럼 효과크기는 여기서 끝!

반응형
반응형

효과크기를 논하기 전에 P-value = 유의확률에 대해 언급하지 않을 수 없다.

 

어떤 통계적인 결론을 내릴 때 가장 많이 사용되는 지표인데,

정말 통계를 배우면서 지겹도록(?) 많이 나오고, 많이 사용된다.

 

효과 크기를 주제로 삼았는데, 왜 유의확률 이야기를 먼저 꺼내냐면..

 

통계검정을 할 때, 유의확률을 너무도 절대적인 기준으로 삼을 때, 검정 결과 해석에 오류가 있을 수 있기 때문이다. 

생각보다 의학•보건 저널에서 이러한 p-value의 오류는 매우 매우 많이 보인다.

 

 

📖 예를 들어보자.

1. 도쿄 사람들의 평균 키가 런던 사람들의 평균 키보다 유의미하게 다른지 통계적으로 검정하고 싶어

각 두 도시에서 표본을 추출하여 t-test를 실시했다.

그 결과 p-value 가 0.01로 나와 두 도시 사람들의 키는 유의미하게 다르다고 결론을 내렸다.

 

마찬가지로,

2. 베를린 사람들의 평균 키가 파리 사람들의 평균 키보다 유의미하게 다른지 통계적으로 검정하기 위해

두 도시에서 표본을 추출하여 t-test를 실시했다.

그 결과 p-value 가 0.001로 나와 두 도시 사람들의 키는 유의미하게 다르다고 결론을 내렸다.

 

 

❓그럼 여기서 생각해보자.

'도쿄-런던' 사람들의 키 차이에 대한 p-value는 0.01, '베를린-파리' 사람들의 키 차이에 대한 p-value는 0.001이다.

⇨ "베를린-파리 사람들의 키 차이에 대한 p-value가 더 작으니까 이 두 도시 사람들의 키 차이가 '도쿄-런던' 도시 사람들의 키 차이보다 더 크겠군" 이라고 해석 할 수 있을까?

(당연히 안 되니까 이런 질문을 했겠지)

 

여기에서 P-value의 역할은

'도쿄-런던' 사람들의 키 차이가 통계적으로 유의미하게 다르다는 것, '베를린-파리' 사람들의 키 차이가 통계적으로 유의미하게 다르다는 것에서 끝나야 한다.

 

P-value가 더 작다고 해서 그것이 더 큰 차이가 있다는 정보를 주지 않음을 항상 염두에 두어야 한다.

 

다시 말하면, P-value가 더 작다고 해서 그것이 귀무가설이 얼마나 잘 못 되었는지가 아니라는 것이다.

 

따라서  "베를린-파리 사람들의 키 차이에 대한 p-value가 더 작으니까 이 두 도시 사람들의 키 차이가 '도쿄-런던' 도시 사람들의 키 차이보다 더 크겠군" 이라고 해석 할 수 있을까? 에 대한 대답은..

⇨ "당연히 이렇게 해석하면 안 된다." 이다. 

 

P-value의 개념을 다시 한 번 짚어보면..

유의확률은 '귀무가설 하에서' 통계량을 관측할 확률이다.

 

이는 아래 그림에서도 잘 표현이 된다.

출처: Stanford Medicine / News / Bad statistics in journals

위 키 차이에 대한 예시를 다시 한 번 살펴보면,

1) '도쿄-런던' 사람들의 평균 키 차이는 10cm, 이에 대한 p-value는 0.01,

2) '베를린-파리' 사람들의 평균 키 차이는 5cm, 이에 대한 p-value는 0.001 라고 할 때,

 

"귀무가설(Null hypothesis) = 두 도시 사람들의 키 차이는 없다." 이므로

 

'도쿄-런던' 사람들의 평균 키 차이는 10cm, 유의확률이 0.01이라는 의미는

⇨ "두 도시 사람들의 키 차이가 없는 것이 사실이라고 했을 때,

     평균 키 차이가 10cm 가 관측될 확률이 0.01" 이라는 의미이다.

 

마찬가지로,

'베를린-파리' 사람들의 평균 키 차이는 5cm, 유의확률이 0.001이라는 것은

⇨ "두 도시 사람들의 키 차이가 없는 것이 사실이라고 했을 때,

     평균 키 차이가 5cm 가 관측될 확률이 0.001" 이라는 의미이다.

 

따라서 더 작은 유의확률이라고 해서 그것이 더 큰 차이를 의미하는 것이 아님을 위 예시에서 살펴보았다.

 

그럼 이러한 차이를 보여주는 통계량이 있을까?

(있으니까 물어봤겠지)

 

당연히 있다!

 

그것이 바로 <Effect Size = 효과 크기>인데, 여기에서 너무 말이 길어져서 다음 글에서 이어서 살펴보도록 하겠다.

 

여기에서는 일단 <p-value가 더 작음 ≠ 더 큰 차이> 를 명확하게 짚고, 앞으로 p-value를 해석할 때 유의하도록!

반응형

+ Recent posts