반응형

 오즈비에 관한 통계적 추론


표본크기가 작을 때 오즈비의 표본추출분포는 비대칭적이기 때문에 오즈비에 대한 통계적 추론은 θ 를 자연로그 변환한 log(θ )를 이용한다.


두 변수 X, 가 서로 독립일 때, θ = 1 ➞ log(θ ) = 0


앞선 글에서 행이 바뀌거나 열이 바뀌면 오즈비는 역수가 되는 것을 살펴보았다.

마찬가지로 로그 오즈비는 행의 역수 혹은 열의 역수가 그 부호를 바꾼다는 의미에서 0에 대하여 대칭이다.

예를 들어,

θ = 2 ➞ log(2) = 0.69

2의 역수 = 0.5

θ = 0.5 ➞ log(0.5) = -0.69

따라서 절대값이 같은 두 log(θ )는 같은 정도의 연관성을 의미한다.


오즈비의 로그 변환인 log(θ )는 θ 의 분포보다 더 정규분포에 가까운 표본추출분포를 갖는다. 

표본크기가 커지면 log(θ )의 표본분포는 평균이 logθ 이고 다음과 같은 표준편차를 갖는 정규분포로 수렴한다.

$$ SE=\sqrt{\frac{1}{n_{11}}+\frac{1}{n_{12}}+\frac{1}{n_{21}}+\frac{1}{n_{22}}} $$

따라서 각 칸의 도수가 증가할수록 표준편차는 감소한다. 


앞선 글(오즈비의 성질)에서 사용했던 표를 다시 가져와서 신뢰구간을 구해보겠다.


Infarction
Yes No Total
Drug Used 28 41 69
Never 35 132 167
Total 63 173 236


logθ 의 왈드 신뢰구간은 다음과 같다.

$$ log \hat{\theta} \pm z_{\alpha/2}(SE) $$


표본으로부터 얻은 각 값들은 아래와 같다. 

$$ log \hat{\theta} = 0.95 $$

$$ SE=\sqrt{\frac{1}{28}+\frac{1}{41}+\frac{1}{35}+\frac{1}{132}}=0.31 $$


위에서 구한 값들을 대입하면 logθ 의 95% 왈드 신뢰구간은 다음과 같다.

$$ log \hat{\theta} \pm z_{\alpha/2}(SE)=0.95 \pm 1.96(0.31)= [0.34, 1.56] $$

로그를 없애기 위해 exp를 취해주면

$$ [e^{0.34}, \;  e^{1.56}] = [1.4, 4.7] $$


따라서 θ 의 95% 왈드 신뢰구간은 [1.4, 4.7]이 된다.


반응형

+ Recent posts