반응형

두 표본이 있다. 

한 표본의 개체와 다른 표본의 개체가 짝지어진 경우의 범주형 반응변수를 비교하고 싶을 때,

두 표본의 반응변수들을 대응쌍(matched pairs)이라 한다. 

 

대응쌍의 예시로는

1) longitudinal 연구에서 동일한 대상을 시간의 흐름에 따라 반복적으로 관측하는 경우.

 - ex. 식습관을 바꾸기 전의 체중과 바꾼 후의 체중

2) 같은 범주를 갖는 유사한 반응변수들이 두 개 이상 되는 설문조사의 경우.

 - ex. 환경 개선을 위해 자발적으로 (1) 더 높은 세금을 지불할 의향이 있는지, (2) 생활수준 긴축을 받아들일 의향이 있는지. 

 

  Belt-Tightening  
Higher tax Agree Disagree Total
Agree 227 132 359
Disagree 107 678 785
Total 334 810 1144

 

 

위 표에서 행의 marginal counts (359, 785)는 더 높은 세금을 지불할 의향이 있는가의 도수, 

열의 marginal counts (334, 810)은 생활수준을 긴축할 의향이 있는가의 도수이다.

 

 

❗이 두 가지 질문에 "예"라고 응답할 확률은 어떻게 비교할 수 있는가?

 

(1) 더 높은 세금을 지불할 의향이 있는가? "예"라고 대답한 표본 비율 = 359/1144=0.314

(2) 생활수준 긴축의 의향이 있는가? "예"라고 대답한 표본 비율 = 334/1144=0.292

 
 

 ❓표본 오즈비는?

$$ \frac{227\times678}{132\times107}=10.9 $$

두 질문에 대한 의견에는 강한 상관성이 존재한다.

 

 

질문 1에 "예"라고 응답할 확률은 

$$ P(Y_{1}=1)=\pi_{11}+\pi_{12} $$
 

질문 2에 "예"라고 응답할 확률은 

$$ P(Y_{2}=1)=\pi_{11}+\pi_{21} $$
 

만약 위 두 확률이 같다면 "아니오"라고 응답할 확률도 동일하게 된다.

 

두 확률이 같다면 다음과 같이 표현할 수 있고,

 

$$ P(Y_{1}=1)=P(Y_{2}=1) $$
$$ P(Y_{1}=1)-P(Y_{2}=1)=(\pi_{11}+\pi_{12})-(\pi_{11}+\pi_{21})=\pi_{12}-\pi_{21} $$

따라서

$$ \pi_{12}=\pi_{21} $$

위 식이 성립한다면 주변동질성 Marginal Homogeneity이 존재한다고 할 수 있다.

 

이와 같이 대응쌍을 이루는 이항형 반응변수일 때,

주변동질성 검정법의 귀무가설은 다음과 같다.

 

$$ H_{0}: P(Y_{1}=1)=P(Y_{2}=1) $$
$$ H_{0}: \pi_{12}=\pi_{21} $$
 
 
반응형
반응형

  범주형 변수 분석에는 2X2 분할표가 간단하여 많이 사용되는데, 간단한 자료만 있는 것이 아니라 복잡한 자료들이 참 많다.. 3X3 분할표도 굉장히 많이 이용되는데, 예시를 살펴보고 삼차원 분할표는 어떻게 분석할 수 있는지 살펴보도록 하겠다.


📋3X3 분할표는 보통 아래와 같이 생겼다.

Victims' race Defendants' race 선고 Rate(%)
Yes No
백인 백인 53 414 11.3
흑인 11 37 22.9
흑인 백인 0 16 0.0
흑인 4 139 2.8
백인 53 430 11.0
흑인 15 176 7.9


위 표에서 먼저 합을 보자.

백인이 사형선고를 받은 비율은 11%, 흑인이 사형선고를 받은 비율은 7.9%이다.
이는 백인이 흑인에 비해 사형선고의 비율이 높다는 의미이다.

뭔가 그동안 보아왔던 것과는 좀 다른 결과이지 않은가?

❗설명변수인 와 반응변수인 의 관계를 통계분석 시 주의해야 할 점은 두 변수에 동시에 영향을 주는 "교란변수 confounding" 이다. 이를 공변량 covariates 이라고도 하는데, 앞으로는 이런 변수들을 공변량이라 하겠다.



🌟 공변량은 설명변수 와 반응변수 Y 모두에 연관되어 있다.

굉장히 매우 중요한 문장이다.

📋예를 들어 보자.
흡연자와 같이 사는 비흡연자에게 간접흡연이 미치는 영향을 살펴보는 연구를 하고자 설명변수로는 배우자가 흡연자인지의 여부, 반응변수로는 폐암 발생 여부로 지정했다고 하자.

X = 흡연자와의 동거 여부
Y = 폐암 발생 여부

관측사항 ①: 흡연자들은 비흡연자에 비해 나이가 많은 경향이 있다. (X 와 나이)

관측사항 ②: 폐암 발생자들 역시 나이가 많은 경향이 있음을 관측하였다. (Y 와 나이)


계산 결과: 흡연자와 동거하는 사람들의 폐암발생률이 비흡연자와 동거하는 사람들의 폐암발생률보다 높음을 관측하였다. 


이러한 관측 결과에 따라 흡연자와 동거하는 사람들의 폐암발생률이 비흡연자와 동거하는 사람들의 폐암발생률보다 높다는 결론을 내릴 수 있을까?

결론을 그럴수도 있고 아닐수도 있다인데, 이를 정확히 판단하기 위해서는 변수 에 모두 영향을 주는 "나이" 라는 공변량을 통제해야 한다. 

나이라는 공변량을 고려하지 않으면 위 결과는 흡연 때문이 아니라 단순히 나이 때문일 수 있다.

따라서 공변량 (혹은 교란변수)를 적절히 보정해주어야 한다.

 

아무튼 공변량에 대한 설명이 길어졌는데, 위 표로 다시 돌아가보자.

위 표에서 제어할 변수는 피해자의 인종이다.

그러므로 제어 변수 Z 의 각 수준에서 XY 를 다시 분류해보자. 그럼 아래의 표가 다시 생성되는데, 이를 부분분할표 partial table 이라고 한다.


Victims' race Defendants' race 선고 Rate(%)
Yes No
백인 백인 53 414 11.3
흑인 11 37 22.9
흑인 백인 0 16 0.0
흑인 4 139 2.8

이러한 부분분할표에서의 연관성을 조건부연관성 conditional association 이라고 한다.

제어변수인 피해자의 인종을 고정시켰을 때,
① 피해자가 백인일 때 ➞ 피고가 흑인일 때 사형선고 비율이 백인일 때보다 더 높다. (11.3% vs 22.9%)
② 피해자가 흑인일 때 ➞ 피고가 흑인일 때 사형선고 비율이 백인일 때보다 더 높다. (0.0% vs 2.8%)

결론: 피해자의 인종을 고정시켰을 때, 사형선고 비율은 피고가 흑인일 때가 백인일 때보다 더 높다.


제어 변수를 고려하지 않고 부분분할표를 결합해 얻은 표를 주변분할표 marginal table이라 하고 그 형태는 다음과 같다.

Defendants' race 선고 Rate(%)
Yes No
Total 백인 53 430 11.0
흑인 15 176 7.9

주변분할표만 보면 피고가 백인일 때의 사형선고 비율이 흑인일 때보다 더 높다. (11% vs 7.9%)

주변분할표에서 얻은 연관성이 주변연관성


피해자의 인종을 고려하지 않으면 백인의 사형선고 비율이 더 높고, 피해자의 인종을 고려하면 흑인의 사형선고 비율이 더 높았다.

이와 같이 주변연관성과 조건부연관성이 다른 방향을 가지는 것심슨(Simpson)의 역설 Simpson's paradox라고 한다.




이전 글에서 이차원 분할표로 오즈비를 구하는 방법을 살펴보았다.

❗삼차원 분할표에서는 조건부 오즈비와 주변 오즈비를 구할 수 있다.


(1) 조건부 오즈비

제어변수를 각각 살펴보았던 부분분할표에서도 오즈비를 구할 수 있다.

이를 조건부 오즈비 conditional odds ratio 라고 한다.

다시 앞서 사용했던 부분분할표를 가져와 보자.

Victims' race Defendants' race 선고 Rate(%)
Yes No
백인 백인 53 414 11.3
흑인 11 37 22.9
흑인 백인 0 16 0.0
흑인 4 139 2.8

① 백인 피해자에 대한 첫 번째 부분분할표에서 조건부 오즈비의 추정값을 구해보자.
$$ \hat{\theta}_{XY(1)}=\frac{53\times 37}{11\times 414}=0.43 $$
이제 0.43이라는 오즈비를 해석해보자.
➞ 피해자가 백인일 때, 백인피고가 사형선고를 받을 오즈는 흑인피고가 사형선고를 받을 오즈의 0.43배이다.


② 흑인 피해자에 대한 두 번째 부분분할표에서 조건부 오즈비의 추정값을 구해보자.
$$ \hat{\theta}_{XY(2)}=\frac{0\times 139}{4\times 16}=0 $$


(2) 주변 오즈비

주변 오즈비의 추정값은 공변량을 제어하지 않은 주변분할표로부터 구할 수 있다.
앞서 사용했던 주변분할표를 가져와 보자.

Defendants' race 선고 Rate(%)
Yes No
Total 백인 53 430 11.0
흑인 15 176 7.9

주변오즈비는 다음과 같이 구할 수 있다.
$$ \hat{\theta}_{XY}=\frac{53\times 176}{15\times 430}=1.45 $$

1.45라는 오즈비를 해석하면
➞ 백인피고가 사형선고를 받을 오즈는 흑인피고가 사형선고를 받을 오즈의 1.45배이다.



❗앞선 글에서 오즈비를 통해 X 변수와 Y 변수의 독립성을 살펴볼 수 있다 했다.

그럼 위와 같은 삼차원 분할표에서는?

위에서는 두 개의 부분분할표가 있었다. ①피해자가 백인인 경우, ②피해자가 흑인인 경우

만약 각 부분분할표에서 가 독립이면, 가 주어졌을 때 조건부 독립 conditionally independent 이라고 하며, XY 사이의 모든 조건부 오즈비는 1이다.


❓ 조건부 독립이면 주변독립일까?
➞ 아니다. 비록 의 각 부분분할표에서 독립이더라도 주변오즈비는 1이 아닐 수도 있다. 
❓ 주변부독립이면 조건부 독립일까?
➞ 아니다. 두 변수 간에 연관성이 존재하더라도 다른 변수를 고려하면 연관성이 사라질 수 있다.


반응형
반응형

 오즈비에 관한 통계적 추론


표본크기가 작을 때 오즈비의 표본추출분포는 비대칭적이기 때문에 오즈비에 대한 통계적 추론은 θ 를 자연로그 변환한 log(θ )를 이용한다.


두 변수 X, 가 서로 독립일 때, θ = 1 ➞ log(θ ) = 0


앞선 글에서 행이 바뀌거나 열이 바뀌면 오즈비는 역수가 되는 것을 살펴보았다.

마찬가지로 로그 오즈비는 행의 역수 혹은 열의 역수가 그 부호를 바꾼다는 의미에서 0에 대하여 대칭이다.

예를 들어,

θ = 2 ➞ log(2) = 0.69

2의 역수 = 0.5

θ = 0.5 ➞ log(0.5) = -0.69

따라서 절대값이 같은 두 log(θ )는 같은 정도의 연관성을 의미한다.


오즈비의 로그 변환인 log(θ )는 θ 의 분포보다 더 정규분포에 가까운 표본추출분포를 갖는다. 

표본크기가 커지면 log(θ )의 표본분포는 평균이 logθ 이고 다음과 같은 표준편차를 갖는 정규분포로 수렴한다.

$$ SE=\sqrt{\frac{1}{n_{11}}+\frac{1}{n_{12}}+\frac{1}{n_{21}}+\frac{1}{n_{22}}} $$

따라서 각 칸의 도수가 증가할수록 표준편차는 감소한다. 


앞선 글(오즈비의 성질)에서 사용했던 표를 다시 가져와서 신뢰구간을 구해보겠다.


Infarction
Yes No Total
Drug Used 28 41 69
Never 35 132 167
Total 63 173 236


logθ 의 왈드 신뢰구간은 다음과 같다.

$$ log \hat{\theta} \pm z_{\alpha/2}(SE) $$


표본으로부터 얻은 각 값들은 아래와 같다. 

$$ log \hat{\theta} = 0.95 $$

$$ SE=\sqrt{\frac{1}{28}+\frac{1}{41}+\frac{1}{35}+\frac{1}{132}}=0.31 $$


위에서 구한 값들을 대입하면 logθ 의 95% 왈드 신뢰구간은 다음과 같다.

$$ log \hat{\theta} \pm z_{\alpha/2}(SE)=0.95 \pm 1.96(0.31)= [0.34, 1.56] $$

로그를 없애기 위해 exp를 취해주면

$$ [e^{0.34}, \;  e^{1.56}] = [1.4, 4.7] $$


따라서 θ 의 95% 왈드 신뢰구간은 [1.4, 4.7]이 된다.


반응형
반응형

  오즈비는 임상에서 굉장히 많이 사용되는 개념이기도 하고, 로지스틱 회귀에서도 모형의 해석에서 굉장히 중요한 개념이다. 오즈비는 처음에는 이해하기 어렵지만, 이해를 하고나면 그 다음부터 쉽게 해석할 수 있고, 오즈비가 가진 여러 성질들도 이해할 수 있다.


 📋오즈비의 성질을 살펴보기 위해 아래와 같은 표를 만들었다.


Infarction
Yes No Total
Drug Used 28 41 69
Never 35 132 167
Total 63 173 236



📉 먼저 위 표를 바탕으로 상대위험도(Relative Risk)를 구해보자.
Drug used 그룹에서 Infarction Yes의 비율을 구해보자
 ⇨ Infarction Yes : 28/69 =  𝛑1

✔ 이번에는 Drug never used 그룹에서 Infarction Yes의 비율을 구해보자
 ⇨ Infarction Yes : 35/167 = 𝛑2

❗이 경우 상대위험도(Relative Risk; RR)는 다음과 같다.

RR𝛑/ 𝛑= (28/69) / (35/167)



📈 이번에는 Odds를 구해보자

Drug used 그룹의 Odds = Odds1 라고 한다면
 Odds1 = 𝛑1/(1-𝛑1) = 28/41

Drug never used 그룹의 Odds = Odds2 라고 한다면
 Odds2 = 𝛑2/(2-𝛑2) = 35/132

❗ 따라서 오즈비(Odds Ratio)는 다음과 같다. 

OR = (28*132)/(41*35) = 2.576



위에서 상대위험도와 오즈비를 기초로 구하였고, 이제 본격적으로 오즈비의 성질에 대해 살펴보도록 한다.

오즈비를 θ 라 하자.
Drug use 여부를 X, Infarction 여부를 Y 라고 하자.


(1) 오즈비의 첫 번째 성질

두 변수 XY 가 서로 독립일 때 ➞ 즉,  𝛑𝛑2 ➞ Odds1=Odds2 ➞ θ = 1


정리하면,
θ = 1 ➞ 두 변수 X 와 Y 가 독립

θ > 1 ➞ 첫 번째 행(=Drug use 그룹)에서의 성공의 Odds가 두 번째 행(=Drug X)의 Odds 보다 크다. ➞ 𝛑1 > 𝛑2

θ < 1 ➞ 첫 번째 행(=Drug use 그룹)에서의 성공의 Odds가 두 번째 행(=Drug X)의 Odds 보다 작다. ➞ 𝛑1 < 𝛑2


❗ 위에서 구한 오즈비는 2.576으로 독립이 아니라고 할 수 있다.



(2) 오즈비의 두 번째 성질

❗ θ 가 1에서 멀어질수록 더 강한 연관성을 나타낸다. 

✔ θ 가 1 보다 클 때 (θ > 1)
오즈비가 4라는 것은 오즈비가 2일 때에 비해 독립성에서 더 멀어진 것이다.

✔ θ 가 1 보다 작을 때 (θ < 1)
0.25의 오즈비는 0.5의 오즈비를 갖는 경우보다 독립성에서 더 멀어진 것이다.

서로 역수 관계에 있는 오즈비방향만 반대일 뿐, 같은 정도의 연관성을 나타낸다.

if θ = 0.25 = Odds1이 Odds2의 0.25배
0.25의 역수는 1/(0.25)=4 이므로 Odds2가 Odds1의 4배라는 의미이다.




만약 행이 바뀌거나 열이 바뀐다면?

-먼저 행이 바뀌는 경우를 살펴보자.

Infarction
Yes No Total
Drug Never 35 132 167
Used 28 41 69
Total 63 173 236


Drug never used 그룹의 Odds = Odds1 = 28/41
Drug used 그룹의 Odds = Odds2 = 35/132

오즈비 = (35*41)/(28*132) = Odds1/Odds2 = 0.39 = 2.576 의 역수 = 1/2.576

따라서 Drug never used 그룹의 Odds는 Drug used 그룹의 Odds에 비해 0.39배이다.
이를 다르게 표현하면 Drug used 그룹의 Odds는 Drug never used 그룹의 "0.39의 역수"인 2.576배 이다.

따라서 행이 바뀌거나 혹은 열이 바뀌면 오즈비는 역수가 된다.




만약 행과 열이 서로 바뀐다면?

-행을 반응변수로 열을 설명변수로 다루거나, 행을 설명변수로 열을 반응변수로 다루더라도 오즈비는 변함이 없다.

반응형
반응형

 지난 글에서 2X2 분할표에서 많이 사용되는 오즈비와 상대위험도의 개념에 대해서 살펴보았다.


그 중에서도 지난 글에서는 오즈비를 사용할 수밖에 없는 경우에 대해 살펴보았다. 

상대위험도가 직관적으로 이해하기 쉽고 위험비에 대한 쉬운 해석을 가능하게 하지만, 그럼에도 불구하고 보건 or 의학 계열에서 오즈비를 많이 사용 할 수밖에 없는 이유에 대해 살펴보았다.

또한 오즈비와 상대위험도는 가끔 동일하게 해석되기도 한다.

(자세한 내용은 이전 글로..)


그럼 이번 글에서는 오즈비와 상대위험도를 동일하게 해석할 수 있는 경우에 대해 살펴보도록 하겠다.


먼저 다음과 같은 오즈비의 특성을 이해해야 한다.


오즈비의 중요 특성: 상대적인 위험도를 과장하는 측면이 있다.


이는 굉장히 중요한 오즈비의 특성인데, Relative Risk 값보다 항상 큰 값을 가진다.

그리고 이는 해당 Event가 흔하게 일어날 수록 더욱 더 과장 된다.


📋예를 들어 보자.

따듯한 차를 마셨을 때와 방안 온도의 차를 마셨을 때 체온이 상승하는지 아니면 그대로 유지되는지에 대해 조사하고 다음과 같은 분할표를 얻었다.


 

체온 상승

유지

Total

Warm tea

90

10

100

Normal temp

20

180

200


먼저 Relative Risk 상대위험도를 구해보자.

$$ \frac{90/100}{20/200} = 9 $$


이번엔 Odds Ratio 오즈비를 구해보자. (유도과정은 이전 글 참고)

$$ \frac{90 * 180}{20 * 10} = 81 $$


이번엔 방금 구한 상대위험도와 오즈비를 해석해보자.

📉RR: 상대위험도는 9로, 이는 따듯한 차를 마신다면 체온이 상승할 확률이 방안 온도의 차를 마셨을 때보다 체온이 상승할 확률이 9배가 더 높다는 의미로 해석할 수 있다.


📈OR: 한편, 오즈비가 81라는 것은 따듯한 차를 마셨을 때 체온이 상승할 오즈가 방안 온도의 차를 마셨을 때 체온이 상승할 오즈보다 81배가 높다는 의미로 해석할 수 있다.


이 실험의 경우 상대적인 비율이 9배라는 것과 81배라는 것은 엄청난 차이가 있다. 그 비율에 있어서도 무려 9배가 차이가 난다. 오즈비 역시 상대적인 위험도를 나타내는 수치이지만 이렇게 큰 차이가 날 경우 오즈비를 상대위험도처럼 해석하면 안된다.


이러한 실험처럼 어떤 Event (이번 사례에서는 체온 상승)가 rare하지 않고 흔하게 일어나는 경우라면 그 상대적인 위험도를 매우 과장시키기 때문에 오즈비를 사용하는 것은 적절하지 않다.



📋이번에는 다음 사례를 살펴보자.

A약과 B약을 복용하였을 때 부작용이 일어날 상대위험도와 오즈비를 구해보도록 하겠다.


 

부작용

정상

Total

Drug A

2

242

244

Drug B

3

478

481


📉먼저 Relative Risk 상대위험도를 구해보자.

$$ \frac{2/244}{3/481} = 1.314 $$


📈이번엔 Odds Ratio 오즈비를 구해보자.

$$ \frac{2 * 478}{3 * 242} = 1.316 $$


역시 오즈비가 상대위험도보다 아주 약간 더 큰 값이 나왔다.

그러나 중요한 점은 오즈비와 상대위험도의 값이 매우 비슷하다는 것이다.

❗이러한 경우에는 오즈비를 상대위험도처럼 해석할 수 있다.


요약하자면, 오즈비는 직관적인 해석이 어려운 대신 상대위험도를 계산할 수 없는 사례-대조 연구에서 사용할 수 있고, 어떤 event가 일어날 사건이 희귀하다면(=확률이 작다면) 충분히 그 해석을 상대위험도로 근사하게 할 수 있다.


반응형
반응형

 Odds Ratio는 임상에서 매우 많이 사용되는 개념이다.

그러나 'Odds' 라는 개념이 직관적으로 잘 와닿지 않기 때문에 흔히 오용되기도 하는 개념이라 가장 먼저 잡고가야 할 주제로 삼았다.

 

오즈비는 범주형 자료에서 사용되는데, 오즈비를 보면서 가장 많이 접하게 될  2X2 분할표는 다음과 같이 생겼다.

  Event Normal Total
Exposed A B A + B
Not exposed C D C + D

 

흔히 하는 실수가 오즈비(Odds Ratio)를 해석할 때, 상대위험도(Relative risk)를 해석하듯이 한다는 점이다.

따라서 오즈비와 상대위험도의 각 개념에 대해서 살펴보고 넘어가도록 하자.

 

❗Odds Ratio와 Relative Risk의 공통점 : 상대적인 비율을 나타낸다.

Public health, Medical field 에서 Odds Ratio or Relative Risk를 사용하는 이유

- 어떤 조건에서 더 위험한지를 수치적으로 나타내기 위해서 사용한다.

예를 들면, "흡연(조건)"을 하는 사람은 비흡연자에 비해 "폐암(Event)" 발생에 있어서 몇 배가 더 위험한가? 와 같은 질문에 대한 해답으로 많이 사용된다.

 

 

✅위와 같은 2X2 이차원 분할표에서 Odds Ratio (오즈비)의 수식적 정의는 다음과 같다.

 

P1 = A/(A+B) ; P2 = C/(C+D)

 

Odds1 = P1/(1-P1) ; Odds2 = P2/(1-P2)

 

Odds Ratio = Odds1/Odds2 = A*D/B*C

 

 

한편 2X2 분할표에서 Relative Risk (상대위험도)의 수식적 정의는 다음과 같다.

 

RR = P1 / P2

 

 

📋이렇게만 보면 직관적으로 감이 잘 오지 않으니 예시를 들어 살펴보겠다.

 흡연군과 비흡연군에서 폐암 발생 환자와 정상인은 다음과 같이 조사되었다. (내가 마음대로 만든 숫자ㅋ)

  폐암 정상 Total
흡연 25 125 150
비흡연 40 360 400

 

📉위와 같은 분할표에서 Relative Risk를 먼저 구하면

$$ \frac{25/150}{40/400} = 1.67 $$

RR 상대위험도가 1.67이라는 의미는

흡연을 하는 그룹이 비흡연 그룹에 비해 1.67배 더 높다라고 해석할 수 있다.

 

 

📈이번에는 Odds Ratio(OR) 오즈비를 구해보도록 하겠다.

흡연 그룹의 Odds  $$ \frac{25/150}{125/150} = 0.2 $$

비흡연 그룹의 Odds  $$ \frac{40/400}{360/400} = 0.111 $$

Odds Ratio 오즈비 = 흡연 그룹의 Odds / 비흡연 그룹의 Odds = 0.2/0.111 = 1.8

OR 오즈비흡연 그룹의 오즈가 비흡연 그룹의 오즈보다 1.8배 더 높다라고 해석할 수 있다.

 

 

 

🤨 근데 잠깐!

상대위험도에 비해 오즈비는 직관적인 해석이 조금 더 어렵다.

 

흡연그룹이 비흡연그룹에 비해 폐암에 대한 위험도가 1.67배가 더 높다는 것은 너무 잘 와닿는데,

❓흡연그룹의 "Odds오즈"가 비흡연그룹의 "Odds오즈"에 비해 1.8배가 더 높다는 것은 무슨 의미인가?

 

 

Odds 오즈의 정의"성공확률/실패확률"이다.

흡연 그룹의 Odds가 0.2 라는 의미는 흡연 그룹에서 정상인 사람이 10명 나올 때마다 폐암에 걸린 사람이 2명씩 나온다는 의미이다.

 

마찬가지로 비흡연 그룹의 Odds가 0.11 이라는 의미는 비흡연 그룹에서 정상인 사람이 10명 나올 때마다 폐암에 걸린 사람이 1.1명씩 나온다는 의미이다.

 

 

이 둘을 나눈 "흡연그룹의 Odds"/"비흡연그룹의 Odds" 가 바로 Odds Ratio 오즈비인데,

오즈비가 1.8이라는 의미는 <흡연그룹의 Odds가 비흡연그룹의 Odds보다 1.8배가 높다.>는 의미이다. 

 

즉, 흡연 그룹에서 정상인 사람이 10명 나올 때마다 폐암에 걸린 사람이 나올 비율이 비흡연 그룹에서 정상인 사람이 10명 나올 때마다 폐암에 걸릴 사람이 나올 비율보다 1.8배가 높다는 의미로 해석할 수 있다. 

 

결론은 상대위험도와 오즈비 모두 흡연 그룹이 비흡연 그룹보다 폐암에 더 취약하다는 것을 이야기 해주고 있다는 것이다.

 

 

❓그럼 위 오즈비를 "흡연 그룹이 비흡연 그룹보다 폐암에 걸릴 확률이 1.8배가 더 높다"고 해석할 수 있을까?

 

Odds Ratio 혹은 Relative Risk 결과를 해석할 때 다음과 같은 문장을 많이 보게 된다.

"위험인자에 노출된 경우에는 노출되지 않은 경우에 비해  암 발생 확률이 대략 3배 더 높다."

 

이렇게 해석해도 되는걸까?

 

 

결론은 오즈비와 상대위험도는 종종 같은 의미로 해석하는 경우들이 많은데, 엄밀히 파자면 해석도 달리해야 하고 실험 설계에 따라 달리 사용해야 한다. 그러나 때에 따라서 오즈비와 상대위험도를 동일하게 해석할 수도 있다.

 

 

두 수치 모두 상대적인 위험도를 나타낸다는 것은 알겠는데 그럼 무슨 차이가 있지?

상대위험도가 이해하기 훨씬 쉽고 많이 사용되는데 오즈비는 도대체 왜 사용하는거지?

때에 따라 동일하게 해석도 가능하다는데 오즈비를 왜 써야하지?

라는 의문이 든다.

 

 

먼저 이번에는 반드시 오즈비를 사용해야 하는 경우를 설명하고, 다음 글에서 오즈비와 상대위험도를 동일하게 해석할 수 있는 경우에 대해 소개하고자 한다.

 

 

먼저 오즈비(Odds Ratio)는 직관적인 해석은 어렵지만,

그럼에도 불구하고 특히 보건/의료 분야에서 굉장히 많이 사용된다.

 

그 이유는 보건 / 의료 분야에서 현실적으로 코호트 연구를 하기에는 상당한 시간과 비용이 들어가

사례-대조 연구 (case-control study)를 사용하는 경우가 많다.

 

사례-대조 연구를 할 때에는 Relative Risk를 사용할 수 없다.

 

❓도대체 왜? 후향적 연구인 사례-대조 연구에서는 상대위험도를 사용할 수 없는가?

이게 굉장히 중요한 질문인데, 이는 분할표로 다시 돌아와야 한다.

 

  폐암 정상 Total
흡연 25 125 150
비흡연 40 360 400

 

사례-대조 연구로 위 분할표를 얻었다고 생각해보자.

그때는 상대위험도를 구하려면 흡연그룹에서 폐암에 걸린 사람과, 비흡연그룹에서 폐암에 걸린 사람의 비율을 구해야 한다. 
흡연그룹에서 폐암에 걸린 사람의 비율은 25/150이다.
문제는 여기에 있다.
이것은 조건부 확률로 흡연그룹의 population 에 대한 정보를 알 때에만 사용할 수 있다.

 

사례-대조 연구에서 알 수 있는 population 정보는 폐암에 걸린 그룹과 정상 그룹에 대한 정보이다. 애초에 폐암그룹과 정상그룹에서 위험요인에 노출 된 사람들을 조사하는 실험 설계이기 때문이다.

이 경우에는 분할표는 위가 아닌 아래처럼 작성해야 한다.

  폐암 정상
흡연 25 125
비흡연 40 360
Total 65 485

 

사례-대조 연구로 위 분할표를 얻었을 때, 알 수 있는 정보는 폐암 그룹과 정상 그룹이다.

이 경우, 알 수 있는 것은 폐암에 걸린 사람 중 흡연에 노출되었던 사람의 비율, 정상인 그룹에서 흡연에 노출되었던 사람의 비율이다.

 

  Event Normal
Exposed A B
Non-exposed C D
Total A + C B + D

 

 

 

 

따라서 Event 그룹의 Odds는 $$ \frac{A/A+C}{C/A+C} = {A/C} $$

Normal 그룹의 Odds는 $$ \frac{B/B+D}{D/B+D} = {B/D} $$

따라서 두 그룹의 오즈비 Odds Ratio는 $$ \frac{A/C}{B/D} = {A*D/B*C} $$

 

이는 Exposed 그룹과 Non-Exposed 그룹에서 구했던 오즈비와 정확히 일치한다.

흡연과 폐암의 분할표로 돌아가서..

  폐암 정상
흡연 25 125
비흡연 40 360
Total 65 485


폐암 그룹의 Odds는 $$ \frac{25/65}{40/65} = {25/40} = 0.625 $$
정상 그룹의 Odds는 $$ \frac{125/485}{360/485} = {125/360} = 0.3472 $$
따라서 두 그룹의 Odds Ratio 오즈비는 0.625/0.3472 = 1.8
 
위에서 구했던 흡연그룹과 비흡연 그룹의 오즈비와 정확히 일치한다.
 
따라서 사례-대조 연구를 사용할 때에는 상대위험도(Relative Risk)를 사용할 수 없고, 오즈비(Odds Ratio)를 사용하여야 한다.

 

다음 글에서는 상대적으로 훨씬 쉽게 이해할 수 있는.. 상대위험도와 오즈비를 동일하게 해석할 수 있는 경우를 소개한다.

 

 

반응형

+ Recent posts