Misunderstanding of ANCOVA (1)

2023. 3. 12. 21:27

보건통계 또는 의학통계를 접해본 사람들은 ANCOVA의 넓은(?) 쓰임새를 알 것이다.

ANCOVA는 정말 정말 많이 쓰이는 모델링 기법 중에 하나이다.

특히 보건통계를 할 때, age나 sex와 같은 변수들을 '보정(control)' 한다는 목적으로 많이 사용하고는 한다.

그러나 ANCOVA는 단순히 보정을 위해 사용하는 모델링 기법이 아니다.

그런데 지금도 아주 많은 논문에서 ANCOVA를 linear regression 기법의 한 종류로 보면서, age와 sex 보정을 위해 사용한다고 보고한다.

따라서 ANCOVA가 잘못 사용된 예시를 찾는 것은 전-혀 어려운 일이 아니다.

NEJM이나 JAMA 저널에서 ANCOVA와 control을 검색하면 잘못된 논문을 찾는 것은 일도 아니다.

아무튼 따라서 ANCOVA의 오용에 대해서 한 번 살펴 봐야겠다는 생각이 들어,

Miller & Chapman (2001)의 논문인 "Misunderstanding Analysis of Covariance" 를 리뷰해보도록 하겠다.

~~벌써 이 논문이 publish 된 지 20년이 넘었는데, 아직도 ANCOVA가 저렇게 오용된다니..~~

위 논문에서 제시한 예시를 들어보도록 하겠다.

-3학년과 4학년 사이에 농구 퍼포먼스에 대한 차이가 있는지 모델링을 해보고 싶다고 하자.

농구 퍼포먼스를 종속변수로,

age를 potential covariate으로,

학년을 grouping variable로 모형을 적합하려고 한다.

농구퍼포먼스 ~ age+ 학년

여기에서 ANCOVA를 적합하는 목적은 학년에 따른 퍼포먼스의 차이가 있음을 증명하고, 그것이 age에 의한 차이가 아님을 말하고 싶기 때문이다.

근데 생각해보면.. 나이와 학년은 선형적인 관계를 갖고 있지 않나?

나이가 많을수록 학년은 높을 것이고, 나이가 어릴수록 학년은 낮을 것이다.

바로 이게 문제이다!

이 모델에서 Age를 공변량으로 넣으면 나이와 연관된 농구실력의 variance가 제거가 되고, age는 학년과 매우 상관관계가 높기 때문에 학년과 연관된 variance가 상당히 제거될 것이다.

따라서 이 모형의 ANCOVA 결과는 매우 의미가 없게 된다.

Covariate으로 인해 관심 있는 두 그룹 변수(독립변수)의 variance를 크게 제거하게 되면,

독립 변수에 covariate보다 구조적으로 이미 존재하는 difference가 있을 때, 문제가 발생할 수 있다.

이 때 covariate은 이러한 구조적인 differences를 그대로 두기 때문에, treatment effect 추정에 bias가 생길 수 있다. 이런 오류를 specification error라 한다.

Nonrandom Group Assignment

임상시험에서 치료군과 대조군을 정한다고 하자.

두 군에 속할 사람들을 정할 때, nonrandomly하게 정한다면 치료 전에 이미 존재했던 차이가 random error에서 오는지, 혹은 true group difference에 의해서 오는지 알 수가 없다.

이 문제는 treatment effects에 대한 해석을 어렵게 한다.

왜냐하면, 치료의 주 효과(main effect)가 ①treatment effect 및 pre-treatment의 interaction에서 오는지, 아니면 ②치료와 pre-treatment의 miningful overlap(variance shared)에 의해서 오는지 알 수 없기 때문이다.

"Pre-treatment 차이"와 "그룹 factor"의 overlap에 대한 잘못된 해석은 많은 경우 무시된다.

pre-existing group difference는 psychopathology 연구에서 매우 흔하게 발생한다고 한다.

Understanding Analysis of Covariance

ANCOVA는 ANOVA의 한 종류로 보면 된다.

ANCOVA는 독립변수 테스트의 파워를 개선하기 위해 개발된 것이지, 그 어떤 것을 "control"할 목적으로 생긴 것이 아니다.

ANOVA와 ANCOVA를 multiple regression and correlation(=MRC)의 framework 으로, 또한 General Linear Model(=GLM)로 이해하면 더 접근이 쉬울 것이다.

ANCOVA를 MRC의 context에 놓고, ANCOVA의 covariate을 regression predictor로 보는 연구들이 있다.

그런데 보통은 이러한 시각의 연구들 보다는 다른 쪽으로 이해하려는 것이 더 흔하다.

ANCOVA를 두 모델의 오차제곱합을 비교함으로써 그룹의 주효과를 테스트할 수 있다고 본다.

아래 두 모델을 살펴보자.

$Y_{ij}=\mu+\alpha_{j}+\beta X_{ij}+\epsilon_{ij}$

$Y_{ij}=\mu+\beta X_{ij}+\epsilon_{ij}$

$Y_{ij}$

= j번째 그룹의 i번째 subject의 dependent variable

Y_ij = j번째 그룹의 i번째 subject의 dependent variable

μ = grand mean

α_j = j번째 그룹의 treatment effect

βX_ij = population regression coefficient, j번째 그룹의 i번째 subject에 대한 covariate score

'STATISTICS' 카테고리의 다른 글

Statistics - 랜덤효과, 고정효과, 혼합모형을 쉽게 이해해보자 (1) (0)	2023.08.13
다중비교 (Multiple comparisons test) [2] (0)	2023.08.10
KAPPA 통계량 ; 일치도를 통계적으로 검정 (0)	2023.02.20
가능도비란? Likelihood Ratio - 기초 (0)	2023.02.19
베이지안 확률 (Bayesian Probability) - 기초 (0)	2023.02.12

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

BIOINFORMATICS WITH PARK-KLEIS