반응형

앞선 글에 이어서 대응쌍을 이루는 이항형 반응변수에 대한 주변동질성 검정법을 더 살펴보고자 한다. 

 

N₁₁ N₁₂
N₂₁ N₂₂

 

❗ 대응쌍을 이루는 이항형 반응변수일 때, 주변동질성 검정법의 귀무가설은 다음과 같다.
$$ H_{0}: P(Y_{1}=1)=P(Y_{2}=1) $$
$$ H_{0}: \pi_{12}=\pi_{21} $$
 
만약 귀무가설이 참이라면, n12와 n21가 비슷한 값을 가질 것이다. 

n* = n12 + n21 가 두 칸의 도수합이라고 하면, 이렇게 두 개로 나뉘는 것은 binomial variate이기 때문이다.

 

귀무가설 H0 : π12 = π21 하에서 n* 관측값이 n12와 n21가 될 확률은 1/2이다.

따라서 n12와 n21는 "성공횟수"와 "실패횟수"로, n* 번 시행일 때 성공의 확률이 1/2인 이항분포를 따른다.

 

n*이 10보다 클 때, 이 이항분포는 평균과 표준편차가 다음과 같은 정규분포와 비슷하게 된다.  

$$ mean=\frac{1}{2}n^{*},  sd = \sqrt{n^{*}(\frac{1}{2})(\frac{1}{2})} $$

따라서 표준화된 정규분포의 검정통계량은 다음과 같다.

$$ z=\frac{n_{12}-(\frac{1}{2})n^{*}}{\sqrt{n^{*}(\frac{1}{2})(\frac{1}{2})}} = \frac{n_{12}-n_{21}}{\sqrt{n_{12}+n_{21}}} $$

 

앞선 글에서 사용했던 표를 다시 가져와서 이 검정통계량에 대입해보면 

  Belt-Tightening  
Higher tax Agree Disagree Total
Agree 227 132 359
Disagree 107 678 785
Total 334 810 1144


n12는 132, n21는 107이므로, 검정통계량 z는 다음과 같다.

 
$$ z= \frac{132-107}{\sqrt{132+107}}=1.62 $$
이에 대한 p-value는 0.106으로 유의수준 5% 하에서 귀무가설을 기각하지 못한다.
 
 
이를 R로 진행하면 다음과 같다.
먼저 데이터를 불러오고 위와 같은 표의 형태로 만들어준다.
 
 
위와 같은 형태의 표를 McNemar test의 input으로 넣어주고 continuity correction은 사용하지 않으므로 correct 옵션은 F로 해준다.
 
 
R에서는 z검정통계량 대신, 자유도가 1이고 근사적으로 카이제곱분포를 따르는 z통계량을 제시한다. z2=(1.62)2=2.6151이고, 이에 대한 p-value는 0.106이다.

 

❗ 앞서 사용한 표를 다시 가져와 종속인 두 비율의 차이에 대한 추정에 대해 얘기하고자 한다.

 

  Belt-Tightening  
Higher tax Agree Disagree Total
Agree 227 132 359
Disagree 107 678 785
Total 334 810 1144

 

증세에 "예"라고 대답할 확률은 P(Y1=1), 긴축에 "예"라고 대답할 확률은 P(Y2=1) 이다.

 

이 두 비율의 차이인 P(Y1=1) - P(Y2=1)에 대한 신뢰구간은 유의성검정보다 더 많은 정보를 준다.

 

 

P(Y1=1)=π1112이며, P(Y2=1)=π1121 이므로 이 두 비율의 차이는 π1221 이다.

반응형
반응형

두 표본이 있다. 

한 표본의 개체와 다른 표본의 개체가 짝지어진 경우의 범주형 반응변수를 비교하고 싶을 때,

두 표본의 반응변수들을 대응쌍(matched pairs)이라 한다. 

 

대응쌍의 예시로는

1) longitudinal 연구에서 동일한 대상을 시간의 흐름에 따라 반복적으로 관측하는 경우.

 - ex. 식습관을 바꾸기 전의 체중과 바꾼 후의 체중

2) 같은 범주를 갖는 유사한 반응변수들이 두 개 이상 되는 설문조사의 경우.

 - ex. 환경 개선을 위해 자발적으로 (1) 더 높은 세금을 지불할 의향이 있는지, (2) 생활수준 긴축을 받아들일 의향이 있는지. 

 

  Belt-Tightening  
Higher tax Agree Disagree Total
Agree 227 132 359
Disagree 107 678 785
Total 334 810 1144

 

 

위 표에서 행의 marginal counts (359, 785)는 더 높은 세금을 지불할 의향이 있는가의 도수, 

열의 marginal counts (334, 810)은 생활수준을 긴축할 의향이 있는가의 도수이다.

 

 

❗이 두 가지 질문에 "예"라고 응답할 확률은 어떻게 비교할 수 있는가?

 

(1) 더 높은 세금을 지불할 의향이 있는가? "예"라고 대답한 표본 비율 = 359/1144=0.314

(2) 생활수준 긴축의 의향이 있는가? "예"라고 대답한 표본 비율 = 334/1144=0.292

 
 

 ❓표본 오즈비는?

$$ \frac{227\times678}{132\times107}=10.9 $$

두 질문에 대한 의견에는 강한 상관성이 존재한다.

 

 

질문 1에 "예"라고 응답할 확률은 

$$ P(Y_{1}=1)=\pi_{11}+\pi_{12} $$
 

질문 2에 "예"라고 응답할 확률은 

$$ P(Y_{2}=1)=\pi_{11}+\pi_{21} $$
 

만약 위 두 확률이 같다면 "아니오"라고 응답할 확률도 동일하게 된다.

 

두 확률이 같다면 다음과 같이 표현할 수 있고,

 

$$ P(Y_{1}=1)=P(Y_{2}=1) $$
$$ P(Y_{1}=1)-P(Y_{2}=1)=(\pi_{11}+\pi_{12})-(\pi_{11}+\pi_{21})=\pi_{12}-\pi_{21} $$

따라서

$$ \pi_{12}=\pi_{21} $$

위 식이 성립한다면 주변동질성 Marginal Homogeneity이 존재한다고 할 수 있다.

 

이와 같이 대응쌍을 이루는 이항형 반응변수일 때,

주변동질성 검정법의 귀무가설은 다음과 같다.

 

$$ H_{0}: P(Y_{1}=1)=P(Y_{2}=1) $$
$$ H_{0}: \pi_{12}=\pi_{21} $$
 
 
반응형
반응형

통계를 처음 공부할 때, 마주하는 아주 중요한 개념들이 있다. 

특히 통계적인 검정을 하고자 할 때, 기초적 검정이든 고급 검정이든 이번에 정리하고자 하는 개념들은 항상 사용되기 때문에 확실하게 알고 가는 것이 좋다. (항상 헷갈림)

 

 

📙 1. '알파α'

통계학개론과 같은 교재에서 '검정(hypothesis test)' 파트에 도달하면 가장 먼저 나오는 단어(?) 중에 하나가 '알파α'이다.

통계에서 알파α는 유의 수준(significance level)이라는 개념을 갖고 있다.

유의 수준은 제 1종의 오류(=귀무가설이 사실인데 기각하는 오류)를 허용할 확률이다.

유의 수준으로는 5%가 많이 사용되는데, 이는 제 1종의 오류를 허용할 확률이 5%라는 의미이다.

따라서 통계 검정시 유의 확률(p-value)이 유의 수준(significance level)인 5%보다 작으면 귀무가설을 기각하게 되는 것이다.

 

알파를 간단하게 정리하면 다음과 같이 나타낼 수 있다.

📌 알파 = 유의 수준 = 제 1종의 오류 = 위양성

α (alpha) = significance level = type 1 error = false positive

 

 

📘 2. '베타β'

검정(hypothesis test) 파트에서 알파 다음으로 나오는 개념이 '베타β'이다.

알파α가 제 1종의 오류를 나타냈다면,

베타β제 2종의 오류(=귀무가설이 거짓인데도 기각하지 않는 오류)를 나타낸다.

제 2종의 오류는 제 1종의 오류보다는 상대적으로 덜 치명적이긴 하지만, 여전히 오류라는 사실을 벗어날 수 없다.

 

베타를 간단하게 정리하면 다음과 같이 나타낼 수 있다.

📌 베타 = 제 2종의 오류 = 위음성

β (beta) = type 2 error = false negative

 

 

이를 그림으로 나타나면 다음과 같다. (출처는 scribbr)

 

검정력(=Power)

📋통계에서 검정력(=Power)이라 불리는 개념은 1에서 베타를 뺀 것이다.

즉, '검정력=Power'는 1에서 제 2종의 오류 확률을  뺀 것으로,

귀무가설이 거짓일 때 귀무가설을 기각할 확률이며,

이는 대립가설이 참일 때 대립가설을 받아들일 확률로,

True Positive일 확률이다.

 

 검정력을 간단하게 정리하면 다음과 같다.

📌 Power in statistics

    = 1 - β (beta)

    = 1 - type 2 error

    = 1 - Pr(False Negative)

    = True Positive

    = probability of accepting an alternative hypothesis when the alternative hypothesis is true.

    =Pr(reject H0 | H1 is true)

    = Sensitivity

 

따라서 높은 통계적 검정력이란 의미는 제 2종의 오류의 risk가 작다는 것을 의미한다.

"High statistical power" means there is small risk of having type 2 errors(false negative).

 

 

이론적으로는 제 2종의 오류와 제 1종의 오류를 모두 줄이는 것이 좋지만 불가능하다.

알파를 작게하면 베타가 커지고, 베타를 줄이면 알파가 커진다.

예를 들어, Bonferroni correction을 하게 되면 제 1종의 오류를 줄이게 되는, 매우 보수적인 방법이다.

따라서 Bonferroni correction을 적용하면 제 2종의 오류 확률이 증가하게 된다.

반대도 마찬가지이다.

제 2종의 오류를 줄이려 한다면 귀무가설을 기각할 확률이 증가하므로 제 1종의 오류가 증가하게 된다.

 

아래 표를 가지고도 생각해볼 수 있다.

 

  Predicted
Positive Negative
Actual Positive True Positive (TP) False Negative (FN)
= beta
Negative False Positive (FP)
= alpha
True Negative (TN)
반응형
반응형

 

통계를 살펴보면서 헷갈리는 것을 꼽으면 표준오차표준편차의 차이점을 들 수 있다.

 

표준편차와 표준오차에 대해 명확하게 나타낸 그림이 있어 가져왔다. 

(출처는 그림 안에 있음)

 

표준차와 표준차는 한국어로 표현했을 때,

단 한 글자의 차이밖에 없기 때문에 나만 그럴 수 있겠지만.. 더 헷갈린다.

 

 

 

📖먼저 표준편차(Standard Deviation)에 대해서 살펴보자.

예를 들어, 전국의 성인 남녀의 몸무게를 조사하기 위해 1,000명을 랜덤으로 추출하고자 한다. 

 

여기에서 모집단은 전국의 성인 남녀이고,

표본은 랜덤으로 추출된 1,000명의 성인 남녀이다.

그럼 표본의 크기가 1,000인 성인 남녀의 몸무게의 평균을 62kg, 표준편차는 4.5kg라 하자.

 

𝓧ⁱ 를 표본조사를 통해 얻은 각 관측치라고 할 때, 표준편차의 제곱을 구하는 식은 다음과 같다.

$$ S^2=\frac{\sum_{i=1}^{n}(x_i-\overline{x})^2}{n-1} $$

 

위 수식을 통해 표준편차의 의미를 해석해보면,

표준편차란 표본 조사로 얻은 각 관측값과 표본평균의 차이를 나타낸다고 할 수 있다. 

모집단의 표준편차를 구할 때에는 분모에 n-1 대신 n으로 나누면 된다.

 

 

 

 

📖이번에는 표준오차(Standard Error)를 살펴볼 차례이다.

 

바로 표준오차의 수식을 살펴보자.

$$ SE=s/\sqrt{n} $$

 

표준오차는 표준편차를 표본크기의 제곱근으로 나눈 값이다.

따라서 표본의 크기(n)가 커질수록 표준오차의 값은 작아진다.

 

그럼 표준오차는 무엇을 의미할까?

표준오차는 "표본평균 추정값의 변동성"을 의미한다.

 

표본 평균의 95% 신뢰구간을 구할 때는 다음과 같이 구한다.

$$ x_{i} \pm 1.96 \times SE $$

위 수식에 따르면, 표준오차가 작을수록 신뢰구간이 좁아지고, 표준오차가 커질수록 신뢰구간이 넓어진다.

따라서 표준오차가 작다는 것은 신뢰구간을 좁혀주고, 표본 평균 추정값의 불확실성을 줄여준다.

 

원래 샘플링 오류를 줄이기 위해서 모집단에서 여러 번 표본추출을 하여 여러 표본 그룹이 있어야 하지만,

현실적인 이유로 이는 불가능한 경우가 대다수다.

 

대부분의 경우는 모집단에서 한 번의 표본추출을 하고,

이 표본들이 모집단을 대표한다고 추정한다.

 

따라서 위의 예시와 같이 표본 1,000명이라는 표본의 크기 n과,

이 표본의 표준편차인 4.5kg를 이용하여 표준오차를 구하게 된다. 

 

따라서 위 예시에서 표준오차는 4.5/√1000 ≒ 1.423이다.

 

표본의 수가 충분히 크면 중심극한정리에 의해 표본평균은 정규분포를 따르므로,

이를 통해 95% 신뢰구간을 구하자면, [62 ± (1.96*1.423)]가 된다.

 

 

반응형
반응형

  범주형 변수 분석에는 2X2 분할표가 간단하여 많이 사용되는데, 간단한 자료만 있는 것이 아니라 복잡한 자료들이 참 많다.. 3X3 분할표도 굉장히 많이 이용되는데, 예시를 살펴보고 삼차원 분할표는 어떻게 분석할 수 있는지 살펴보도록 하겠다.


📋3X3 분할표는 보통 아래와 같이 생겼다.

Victims' race Defendants' race 선고 Rate(%)
Yes No
백인 백인 53 414 11.3
흑인 11 37 22.9
흑인 백인 0 16 0.0
흑인 4 139 2.8
백인 53 430 11.0
흑인 15 176 7.9


위 표에서 먼저 합을 보자.

백인이 사형선고를 받은 비율은 11%, 흑인이 사형선고를 받은 비율은 7.9%이다.
이는 백인이 흑인에 비해 사형선고의 비율이 높다는 의미이다.

뭔가 그동안 보아왔던 것과는 좀 다른 결과이지 않은가?

❗설명변수인 와 반응변수인 의 관계를 통계분석 시 주의해야 할 점은 두 변수에 동시에 영향을 주는 "교란변수 confounding" 이다. 이를 공변량 covariates 이라고도 하는데, 앞으로는 이런 변수들을 공변량이라 하겠다.



🌟 공변량은 설명변수 와 반응변수 Y 모두에 연관되어 있다.

굉장히 매우 중요한 문장이다.

📋예를 들어 보자.
흡연자와 같이 사는 비흡연자에게 간접흡연이 미치는 영향을 살펴보는 연구를 하고자 설명변수로는 배우자가 흡연자인지의 여부, 반응변수로는 폐암 발생 여부로 지정했다고 하자.

X = 흡연자와의 동거 여부
Y = 폐암 발생 여부

관측사항 ①: 흡연자들은 비흡연자에 비해 나이가 많은 경향이 있다. (X 와 나이)

관측사항 ②: 폐암 발생자들 역시 나이가 많은 경향이 있음을 관측하였다. (Y 와 나이)


계산 결과: 흡연자와 동거하는 사람들의 폐암발생률이 비흡연자와 동거하는 사람들의 폐암발생률보다 높음을 관측하였다. 


이러한 관측 결과에 따라 흡연자와 동거하는 사람들의 폐암발생률이 비흡연자와 동거하는 사람들의 폐암발생률보다 높다는 결론을 내릴 수 있을까?

결론을 그럴수도 있고 아닐수도 있다인데, 이를 정확히 판단하기 위해서는 변수 에 모두 영향을 주는 "나이" 라는 공변량을 통제해야 한다. 

나이라는 공변량을 고려하지 않으면 위 결과는 흡연 때문이 아니라 단순히 나이 때문일 수 있다.

따라서 공변량 (혹은 교란변수)를 적절히 보정해주어야 한다.

 

아무튼 공변량에 대한 설명이 길어졌는데, 위 표로 다시 돌아가보자.

위 표에서 제어할 변수는 피해자의 인종이다.

그러므로 제어 변수 Z 의 각 수준에서 XY 를 다시 분류해보자. 그럼 아래의 표가 다시 생성되는데, 이를 부분분할표 partial table 이라고 한다.


Victims' race Defendants' race 선고 Rate(%)
Yes No
백인 백인 53 414 11.3
흑인 11 37 22.9
흑인 백인 0 16 0.0
흑인 4 139 2.8

이러한 부분분할표에서의 연관성을 조건부연관성 conditional association 이라고 한다.

제어변수인 피해자의 인종을 고정시켰을 때,
① 피해자가 백인일 때 ➞ 피고가 흑인일 때 사형선고 비율이 백인일 때보다 더 높다. (11.3% vs 22.9%)
② 피해자가 흑인일 때 ➞ 피고가 흑인일 때 사형선고 비율이 백인일 때보다 더 높다. (0.0% vs 2.8%)

결론: 피해자의 인종을 고정시켰을 때, 사형선고 비율은 피고가 흑인일 때가 백인일 때보다 더 높다.


제어 변수를 고려하지 않고 부분분할표를 결합해 얻은 표를 주변분할표 marginal table이라 하고 그 형태는 다음과 같다.

Defendants' race 선고 Rate(%)
Yes No
Total 백인 53 430 11.0
흑인 15 176 7.9

주변분할표만 보면 피고가 백인일 때의 사형선고 비율이 흑인일 때보다 더 높다. (11% vs 7.9%)

주변분할표에서 얻은 연관성이 주변연관성


피해자의 인종을 고려하지 않으면 백인의 사형선고 비율이 더 높고, 피해자의 인종을 고려하면 흑인의 사형선고 비율이 더 높았다.

이와 같이 주변연관성과 조건부연관성이 다른 방향을 가지는 것심슨(Simpson)의 역설 Simpson's paradox라고 한다.




이전 글에서 이차원 분할표로 오즈비를 구하는 방법을 살펴보았다.

❗삼차원 분할표에서는 조건부 오즈비와 주변 오즈비를 구할 수 있다.


(1) 조건부 오즈비

제어변수를 각각 살펴보았던 부분분할표에서도 오즈비를 구할 수 있다.

이를 조건부 오즈비 conditional odds ratio 라고 한다.

다시 앞서 사용했던 부분분할표를 가져와 보자.

Victims' race Defendants' race 선고 Rate(%)
Yes No
백인 백인 53 414 11.3
흑인 11 37 22.9
흑인 백인 0 16 0.0
흑인 4 139 2.8

① 백인 피해자에 대한 첫 번째 부분분할표에서 조건부 오즈비의 추정값을 구해보자.
$$ \hat{\theta}_{XY(1)}=\frac{53\times 37}{11\times 414}=0.43 $$
이제 0.43이라는 오즈비를 해석해보자.
➞ 피해자가 백인일 때, 백인피고가 사형선고를 받을 오즈는 흑인피고가 사형선고를 받을 오즈의 0.43배이다.


② 흑인 피해자에 대한 두 번째 부분분할표에서 조건부 오즈비의 추정값을 구해보자.
$$ \hat{\theta}_{XY(2)}=\frac{0\times 139}{4\times 16}=0 $$


(2) 주변 오즈비

주변 오즈비의 추정값은 공변량을 제어하지 않은 주변분할표로부터 구할 수 있다.
앞서 사용했던 주변분할표를 가져와 보자.

Defendants' race 선고 Rate(%)
Yes No
Total 백인 53 430 11.0
흑인 15 176 7.9

주변오즈비는 다음과 같이 구할 수 있다.
$$ \hat{\theta}_{XY}=\frac{53\times 176}{15\times 430}=1.45 $$

1.45라는 오즈비를 해석하면
➞ 백인피고가 사형선고를 받을 오즈는 흑인피고가 사형선고를 받을 오즈의 1.45배이다.



❗앞선 글에서 오즈비를 통해 X 변수와 Y 변수의 독립성을 살펴볼 수 있다 했다.

그럼 위와 같은 삼차원 분할표에서는?

위에서는 두 개의 부분분할표가 있었다. ①피해자가 백인인 경우, ②피해자가 흑인인 경우

만약 각 부분분할표에서 가 독립이면, 가 주어졌을 때 조건부 독립 conditionally independent 이라고 하며, XY 사이의 모든 조건부 오즈비는 1이다.


❓ 조건부 독립이면 주변독립일까?
➞ 아니다. 비록 의 각 부분분할표에서 독립이더라도 주변오즈비는 1이 아닐 수도 있다. 
❓ 주변부독립이면 조건부 독립일까?
➞ 아니다. 두 변수 간에 연관성이 존재하더라도 다른 변수를 고려하면 연관성이 사라질 수 있다.


반응형
반응형

 오즈비에 관한 통계적 추론


표본크기가 작을 때 오즈비의 표본추출분포는 비대칭적이기 때문에 오즈비에 대한 통계적 추론은 θ 를 자연로그 변환한 log(θ )를 이용한다.


두 변수 X, 가 서로 독립일 때, θ = 1 ➞ log(θ ) = 0


앞선 글에서 행이 바뀌거나 열이 바뀌면 오즈비는 역수가 되는 것을 살펴보았다.

마찬가지로 로그 오즈비는 행의 역수 혹은 열의 역수가 그 부호를 바꾼다는 의미에서 0에 대하여 대칭이다.

예를 들어,

θ = 2 ➞ log(2) = 0.69

2의 역수 = 0.5

θ = 0.5 ➞ log(0.5) = -0.69

따라서 절대값이 같은 두 log(θ )는 같은 정도의 연관성을 의미한다.


오즈비의 로그 변환인 log(θ )는 θ 의 분포보다 더 정규분포에 가까운 표본추출분포를 갖는다. 

표본크기가 커지면 log(θ )의 표본분포는 평균이 logθ 이고 다음과 같은 표준편차를 갖는 정규분포로 수렴한다.

$$ SE=\sqrt{\frac{1}{n_{11}}+\frac{1}{n_{12}}+\frac{1}{n_{21}}+\frac{1}{n_{22}}} $$

따라서 각 칸의 도수가 증가할수록 표준편차는 감소한다. 


앞선 글(오즈비의 성질)에서 사용했던 표를 다시 가져와서 신뢰구간을 구해보겠다.


Infarction
Yes No Total
Drug Used 28 41 69
Never 35 132 167
Total 63 173 236


logθ 의 왈드 신뢰구간은 다음과 같다.

$$ log \hat{\theta} \pm z_{\alpha/2}(SE) $$


표본으로부터 얻은 각 값들은 아래와 같다. 

$$ log \hat{\theta} = 0.95 $$

$$ SE=\sqrt{\frac{1}{28}+\frac{1}{41}+\frac{1}{35}+\frac{1}{132}}=0.31 $$


위에서 구한 값들을 대입하면 logθ 의 95% 왈드 신뢰구간은 다음과 같다.

$$ log \hat{\theta} \pm z_{\alpha/2}(SE)=0.95 \pm 1.96(0.31)= [0.34, 1.56] $$

로그를 없애기 위해 exp를 취해주면

$$ [e^{0.34}, \;  e^{1.56}] = [1.4, 4.7] $$


따라서 θ 의 95% 왈드 신뢰구간은 [1.4, 4.7]이 된다.


반응형
반응형

  오즈비는 임상에서 굉장히 많이 사용되는 개념이기도 하고, 로지스틱 회귀에서도 모형의 해석에서 굉장히 중요한 개념이다. 오즈비는 처음에는 이해하기 어렵지만, 이해를 하고나면 그 다음부터 쉽게 해석할 수 있고, 오즈비가 가진 여러 성질들도 이해할 수 있다.


 📋오즈비의 성질을 살펴보기 위해 아래와 같은 표를 만들었다.


Infarction
Yes No Total
Drug Used 28 41 69
Never 35 132 167
Total 63 173 236



📉 먼저 위 표를 바탕으로 상대위험도(Relative Risk)를 구해보자.
Drug used 그룹에서 Infarction Yes의 비율을 구해보자
 ⇨ Infarction Yes : 28/69 =  𝛑1

✔ 이번에는 Drug never used 그룹에서 Infarction Yes의 비율을 구해보자
 ⇨ Infarction Yes : 35/167 = 𝛑2

❗이 경우 상대위험도(Relative Risk; RR)는 다음과 같다.

RR𝛑/ 𝛑= (28/69) / (35/167)



📈 이번에는 Odds를 구해보자

Drug used 그룹의 Odds = Odds1 라고 한다면
 Odds1 = 𝛑1/(1-𝛑1) = 28/41

Drug never used 그룹의 Odds = Odds2 라고 한다면
 Odds2 = 𝛑2/(2-𝛑2) = 35/132

❗ 따라서 오즈비(Odds Ratio)는 다음과 같다. 

OR = (28*132)/(41*35) = 2.576



위에서 상대위험도와 오즈비를 기초로 구하였고, 이제 본격적으로 오즈비의 성질에 대해 살펴보도록 한다.

오즈비를 θ 라 하자.
Drug use 여부를 X, Infarction 여부를 Y 라고 하자.


(1) 오즈비의 첫 번째 성질

두 변수 XY 가 서로 독립일 때 ➞ 즉,  𝛑𝛑2 ➞ Odds1=Odds2 ➞ θ = 1


정리하면,
θ = 1 ➞ 두 변수 X 와 Y 가 독립

θ > 1 ➞ 첫 번째 행(=Drug use 그룹)에서의 성공의 Odds가 두 번째 행(=Drug X)의 Odds 보다 크다. ➞ 𝛑1 > 𝛑2

θ < 1 ➞ 첫 번째 행(=Drug use 그룹)에서의 성공의 Odds가 두 번째 행(=Drug X)의 Odds 보다 작다. ➞ 𝛑1 < 𝛑2


❗ 위에서 구한 오즈비는 2.576으로 독립이 아니라고 할 수 있다.



(2) 오즈비의 두 번째 성질

❗ θ 가 1에서 멀어질수록 더 강한 연관성을 나타낸다. 

✔ θ 가 1 보다 클 때 (θ > 1)
오즈비가 4라는 것은 오즈비가 2일 때에 비해 독립성에서 더 멀어진 것이다.

✔ θ 가 1 보다 작을 때 (θ < 1)
0.25의 오즈비는 0.5의 오즈비를 갖는 경우보다 독립성에서 더 멀어진 것이다.

서로 역수 관계에 있는 오즈비방향만 반대일 뿐, 같은 정도의 연관성을 나타낸다.

if θ = 0.25 = Odds1이 Odds2의 0.25배
0.25의 역수는 1/(0.25)=4 이므로 Odds2가 Odds1의 4배라는 의미이다.




만약 행이 바뀌거나 열이 바뀐다면?

-먼저 행이 바뀌는 경우를 살펴보자.

Infarction
Yes No Total
Drug Never 35 132 167
Used 28 41 69
Total 63 173 236


Drug never used 그룹의 Odds = Odds1 = 28/41
Drug used 그룹의 Odds = Odds2 = 35/132

오즈비 = (35*41)/(28*132) = Odds1/Odds2 = 0.39 = 2.576 의 역수 = 1/2.576

따라서 Drug never used 그룹의 Odds는 Drug used 그룹의 Odds에 비해 0.39배이다.
이를 다르게 표현하면 Drug used 그룹의 Odds는 Drug never used 그룹의 "0.39의 역수"인 2.576배 이다.

따라서 행이 바뀌거나 혹은 열이 바뀌면 오즈비는 역수가 된다.




만약 행과 열이 서로 바뀐다면?

-행을 반응변수로 열을 설명변수로 다루거나, 행을 설명변수로 열을 반응변수로 다루더라도 오즈비는 변함이 없다.

반응형
반응형

통계 분석의 핵심은 무엇일까?

 

✅통계 분석의 목적은 여러 가지가 있지만 가장 중요한 것 중에 하나는 관측된 표본을 통해 모수를 추정하는 것이라 할 수 있다.

 

📋대선이 가까워지고 있는 요즘 (이 글은 대선 전에 작성했으나 지금 올림ㅋㅋ), 지지율 여론조사, 지지하는 정당 여론조사 뉴스가 굉장히 많이 올라온다. 뉴스들을 살펴보면 대략 표본은 1,000여 명 정도가 응답을 하고 여론조사 방식은 면접조사, ARS 등이 있다. 

 

그런데, 여기서 드는 의문..

 

1,000 명 정도 되는 표본의 대답이 전체 국민들을 대변하는 여론이라고 할 수 있을까?

(가끔 표본 수가 고작 1,000 명 밖에 안되기 때문에 자기 마음에 들지 않는 여론조사 결과가 나오면 여론 조사가 잘못되었다고 판단하는 사람들도 많다. 생각보다 매우 매우 많다.)

 

표본 수가 2,000 명인 여론조사와 표본 수가 20,000 명인 여론조사 중 어떤 조사가 더 정확할까?

 ⇨ 이는 여론 조사 설계에 따라 달라진다.

대략적으로 표본의 수가 1,000 ~ 2,000 정도면 대체적으로 여론조사 결과가 믿을만하다고 알려져 있다. 단, 표본이 전체 국민을 대변할 수 있을 정도로 표본 설계가 촘촘히 되어야 하며, 적절한 조사 방법을 이용해야 한다. 또한 편향이 생기지 않도록 설문지를 비롯해 여러 가지를 신경써야 한다.

만약 표본조사에서 33.5%가 야당 후보를 지지한다고 하면 모수 역시 대략 그 정도라고 추정할 수 있다.

 

 

 

✅모집단 전체를 조사하려면 비용과 시간이 너무 많이 소요되므로 비슷한 성능이라면 모집단을 대표하는 표본을 관측해 모수를 추정하는 방법이 널리 사용된다.

 

이렇게 미지의 모수값들은 표본을 이용해 추정하는데 그 추정법 중에 하나는 최대가능도추정법 Maximum Likelihood Estimation 이다.

 

"모수적 추정 방법은 반응변수에 대해 특정 확률분포를 가정한다."

 

가능도 검정을 할 때 많이 마주치는 문장인데, 참 이해하기 어려운 문장이다.

 

 

❗확률 분포는 여러 가지 종류가 있다. 

 ⇨ 대표적인 확률 분포로는 정규분포, 카이제곱분포, 포아송분포, 이항분포 등이 있다.

 

 

📋예를 들어 A공장에서 생산된 마스크의 불량률을 구해보고자 한다. 

 ⇨ A공장 생산 마스크의 불량률을 구하기 위해서 전 제품을 전수조사를 할 수는 없다.

따라서 생산된 제품 중 "몇 개를 뽑아서"(=표본추출) "불량인지 아닌지"(=반응변수)를 살펴보아야 한다.

이 경우 반응변수는 ①불량 ②정상 이 두 가지의 카테고리이고 여러 번 반복하여 확인하므로 "이항분포"라는 확률분포를 가정한다.

여기에서 추정하고자 하는 모수"불량률(𝛑)"이다. 

 

 

❓우리는 불량률을 모른다.

 ⇨ 10개의 마스크를 랜덤으로 골랐다고 하자.

시행횟수가 n이고, 불량품의 개수를 x라고 한다면.. 반응변수가 이항분포를 따르므로

 

모수인 불량률을 𝛑 라고 할 때,

확률분포는 다음과 같다. 

$$ _{n}\textrm{C}_{x} \pi^{x}(1-\pi)^{n-x} $$

 

📉 만약 표본 10개의 마스크 중 불량품의 개수가 0이라면 그 확률은 다음이 된다.

$$ P(X=0)=(1-\pi)^{10} $$ 

 

따라서 불량품의 개수가 0일 확률은 0부터 1의 값을 갖는 미지의 모수 𝛑값에 의해 달라진다.

 

이렇게 미지의 모수의 함수로 표현 된 표본자료의 확률가능도함수 Likelihood function이라고 한다. 

 

위 예제를 이와 같이 표현하면..

10번의 시행에서 X(불량품)=0 인 불량품에 대한 이항가능도함수는 0과 1 사이의 𝛑 에 대하여 $$ l(\pi)=(1-\pi)^{10} $$ 로 정의할 수 있다.

 

만약 

모수가 0이라면 (불량률이 0 이라면) $$l(0)=(1-0)^{10}=1$$

불량률이 0.2라면 $$l(0.2)=(1-0.2)^{10}=0.107$$ 

불량률이 0.4라면 $$ l(0.4)=(1-0.4)^{10}=0.006 $$

④ 불량률이 0.6라면 $$ l(0.6)=(1-0.6)^{10}=0.0001 $$

 

이를 R을 이용하여 그림으로 나타내면 다음과 같다.

 

 

만약 생산된 마스크 중 10개를 랜덤 선택하였을 때 불량인 마스크의 개수가 4개라면.. 

(여전히 불량률은 몰라서 𝛑로 둠)

$$ _{n}\textrm{C}_{x}(\pi)^{x}(1-\pi)^{n-x}=_{10}\textrm{C}_{4}(\pi)^{4}(1-\pi)^{6} $$

$$ l(\pi)=210( \pi )^{4}(1-\pi)^{6} $$

 

만약 

① 모수가 0이라면 (불량률이 0 이라면) $$l (0)=210(0)^{4}(1)^{6}=0 $$

② 불량률이 0.2라면 $$ l(0.2)=210(0.2)^{4}(1-0.2)^{6}=0.088 $$ 

③ 불량률이 0.4라면 $$ l(0.4)=210(0.4)^{4}(1-0.4)^{6}=0.25 $$ 

④ 불량률이 0.5라면 $$ l(0.5)=210(0.5)^{4}(1-0.5)^{6}=0.205 $$ 

⑤ 불량률이 0.6라면 $$ l(0.6)=210(0.6)^{4}(1-0.6)^{6}=0.11 $$ 

 

이를 R을 이용하여 그림으로 나타내면 다음과 같다.

모수의 Maximum Likelihood Estimator 최대가능도추정량"가능도함수를 최대로 만드는 모수값"으로 정의한다.

즉, 그 모수값에서 가능도함수가 최댓값을 갖는다.

(역시 이해하기 어려운 문장이다..)

 

 

다시 앞의 예로 돌아가보면..

$$ l(\pi)=(1-\pi)^{10} $$

위 가능도 함수는 X=0, 생산된 마스크 중 10개를 랜덤 선택하였을 때 불량인 마스크의 개수가 0개였을 때의 가능도함수였다. 그리고 이를 그래프로 나타낸 것은 다음과 같다.

위 그래프에서 최댓값을 갖는 모수값은 0.0이고, 최대가능도추정량은 0.0이 되는 것이다.

따라서 10 개의 표본 마스크 중에서 0개의 불량품이 있었다면 불량률 P(or파이)가 0.0일 때에 관측될 가능성이 높다는 의미이다.

 

 

두 번째 예제를 다시 살펴보면..

$$ l(\pi)=210( \pi )^{4}(1-\pi)^{6} $$

위 가능도 함수는 X=4, 생산된 마스크 중 10개를 랜덤 선택하였을 때 불량인 마스크의 개수가 4개였을 때의 가능도함수다. 그리고 이를 그래프로 나타낸 것은 다음과 같다.

위 그래프에서 가능도함수가 최댓값을 갖는 모수는 0.4이고, 따라서 10개의 마스크를 랜덤으로 뽑았을 때 불량품이 4개 발견되었다면 불량률이 0.4일 때 발견될 가능성이 높다는 의미이다.

 

n번 시행 중에서 x번 성공한 이항분포의 결과에서 파이의 최대가능도추정량은 

$$ \hat{\pi}=\frac{x}{n} $$

이는 n번 시행했을 때의 표본비율이다.

 
최대가능도(ML) 추정량은 실제 표본자료를 관측하기 전에는 그 값을 알 수 없다.
 
 
따라서 앞으로 이항모수에 대한 통계적 추론을 위해서 ML 추정량을 사용할 수 있다.
 
다음 글에서는 이항모수에 대한 유의성 검정에 대해 살펴보도록 하겠다.
 

 

 

반응형

+ Recent posts