반응형

 

Study Design에는 크게 다음 두 가지 타입이 있다.

 

1. Observational studies

  • 'Nature'가 factor of interest에 노출될 사람과 비노출될 사람을 정한다.
  • 보통 association을 증명하고 싶을 때 사용한다.
  • Association은 원인을 암시할 수도 있고, 아닐 수도 있다.

2. Experimental studies 

  • 실험설계자가 노출/비노출을 결정한다.
  • 보통은 원인을 증명하고 싶을 때 사용한다.

 

❗위 두 스터디 디자인에 대해서 조금 더 자세하게 살펴보도록 하자.

 

Ⅰ. Observational studies

우리 말로 관측연구로 불리는 이 디자인은 보통 다음과 같이 나눌 수 있다.

① cross-sectional study, ② case-control study, ③ prospective (or cohort) study

  1. Cross-sectional study: measurements는 같은 시간에 측정해야 함. 예를 들어 혈압과 coronary disease의 연관성을 알고 싶을 때, 혈압과 coronary disease에 대한 테스트는 동시에 이루어져야 함. 인과를 알 수는 없음.
  2. Case-control study: 연구자가 질병에 걸린 case 그룹과 정상인 control 그룹을 나눠 조사를 통해 위험인자의 유무를 결정함. 예를 들면 폐암에 걸린 case 그룹과 정상인 control 그룹을 나눠 각 그룹에서 흡연(위험인자)의 유무를 확인함. 희귀병 연구에 유용함. 보통 retrospective (후향적) 연구.
  3. Prospective (or cohort) study: 연구자가 질병이 없는 정상 코호트 집단에서 위험인자를 가진 사람들과 위험인자가 없는 사람들을 나누어서 추적 관찰하는 연구. 인과관계를 파악에 유용함. 측정도구의 오류나 recall 오류에 의한 subject bias가 덜함. 우리 말로는 전향연구이고 longitudinal study로도 불린다.

정리하면 Case-control 연구와 Prospective 연구의 가장 큰 차이점은 "sampling"에 있다.

Case-control 연구의 경우 diseased 그룹과 nondiseased 그룹에 속하는 사람들을 샘플링하는 것이고,

Prospective 연구의 경우 위험인자에 노출된 사람과 노출되지 않은 사람들을 샘플링 하는 것이다.

 

Prospective (전향, 코호트) 연구가 질병의 원인에 대해서는 retrospective(후향) 연구보다 더 강한 증거가 된다. 단점은 물론 비싸다.. 많은 시간이 필요하고, 어렵다.

 

 

Ⅱ. Experimental studies

Experimental 연구는 intervention의 효과를 테스트 하는 것이고,

health field에서는 Clinical trial (임상 시험) 이라 보면 된다.

 

Clinical trial에서는 연구자가 참가자들이 어떤 그룹에 속할지에 관여하게 된다. (연구자가 직접 참가자들을 지정하는 것보다는 어떤 방식으로 참가자들을 각 그룹에 배정할지 결정하는 방법에 관여함)

반응형
반응형

 

ANOVA 를 통해 세 군의 평균을 비교한다고 해보자.

 

귀무가설은

H₀ : 세 그룹의 차이는 없다. 

$$ \mu_{A}=\mu_{B}=\mu_{C} $$

 

대립가설은

H₁ : 세 그룹의 차이는 존재한다. = Not H₀

 

 

만약 귀무가설이 기각 된다면, 어딘가에서 차이가 있다는 의미인데, 아직 어떤 비교군에서 차이가 있었는지 모른다.

귀무가설이 기각 된 경우는 다음과 같은 상황들 중 한 상황이었을 것이다.

  • A ≠ B ≠ C
  • A ≠ B = C
  • A = B ≠ C
  • A ≠ C = B

 

위 네 경우 중 어떤 상황 때문에 귀무가설이 기각되었는지 검정하는 것이 다중비교 (Multiple Comparison Test) 혹은 사후검정(post-hoc test) 라 한다.

 

위 네 가지 상황 중 어떤 상황 때문에 분산분석의 귀무가설이 기각 되었는지 확인하기 위해서는

  1. A - B
  2. A - C
  3. B - C

이렇게 세 가지 짝이 필요하다. 이와 같이 비교를 위한 짝의 집합 (set of comparisons)을 Family이다.

Family에 속한 짝 비교가 시행될 때 발생하는 1종 오류 (ɑ) 를 "Family-wise error (FWE)" 라고 칭한다.

 

 

(1) 1번 A-B 차이를 검정

제일 먼저, 1번 짝인 A-B의 차이 유무를 유의수준 (ɑ)을 5%로 검정을 하고자 한다.

이 때, 귀무가설과 대립가설은 다음과 같다.

H₀ : A = B 

H₁ : not H₀

 

이 두 그룹의 비교를 위해 student t-test를 시행하였고, 유의한 차이가 없었다.

 

만약 이 때, 차이가 없는데도 불구하고 귀무가설을 기각하는 것을 제 1종의 오류라 한다.

⇨ 여기서 제 1종의 오류는 5%, 귀무가설이 참일 확률은 95%이다.

 

 

 

(2) 1번 A-B 차이 & 2번 A-C 차이 검정

이번에는 1번과 2번을 각각 유의수준 5%로 검정을 하고자 다음 두 개의 비교군을 대상으로 student t-test를 시행하고자 한다.

이 때, 귀무가설과 대립가설은 다음과 같다.

H₀ : A = B & A = C 

H₁ : not H₀

 

1번과 2번에서 각각 student t-test를 시행한 결과 각각 유의한 차이가 없었다.

 

여기에서 제 1종의 오류는 귀무가설 ① A - B & ② A - C 모두 같음이 맞는데도 불구하고 아니라는 결론을 내리는 것이므로,

만약 ① A - B 혹은 ② A - C 에서 한 개라도 차이가 있다고 결론 내리거나, 두 비교군 모두 차이가 있다고 결론을 내리면 제 1종의 오류가 된다.

 

이 경우, ①번 혹은 ②번, 둘 중 한 개에서만 잘못 결론을 내려도 귀무가설이 기각된다.

① A - B 에서 귀무가설이 참일 확률은 0.95, ② A - C 에서 귀무가설이 참일 확률은 0.95 이므로,

이 두 개의 비교군에서 모두 귀무가설이 참일 확률은 0.95*0.95=0.9025로, 90.25%가 된다.

따라서 제 1종의 오류가 발생할 확률은 1-0.9025=0.0975이므로, 9.75%가 된다. 

 

 

(3) 1번 A-B 차이 & 2번 A-C & 3번 B-C 차이 검정

이번에는 1번과 2번, 3번 모두 각각 유의수준 5%로 검정을 하고자 세 개의 비교군을 대상으로 student t-test를 시행하고자 한다.

이 때, 귀무가설과 대립가설은 다음과 같다.

H₀ : A = B & A = C & B = C

H₁ : not H₀

 

1번과 2번, 3번에서 각각 student t-test를 시행한 결과 각각 유의한 차이가 없었다.

 

여기에서 제 1종의 오류는 ① A - B & ② A - C &  ③ B - C 각 군에서 모두 같음이 맞는데도 불구하고 아니라는 결론을 내리는 것이므로,

만약 ① A - B 혹은 ② A - C 혹은 ③ B - C 에서 한 개라도 차이가 있다고 결론 내리면 제 1종의 오류가 된다.

 

따라서 실제로 차이가 유의하지 않음에도, 우연에 의해 세 개 중에 한 개라도 유의하다고 나오면, 위 귀무가설이 기각되는 제 1종의 오류가 발생하게 된다.

 

① A - B 에서 귀무가설이 참일 확률은 0.95, ② A - C 에서 귀무가설이 참일 확률은 0.95 ③ B - C 에서 귀무가설이 참일 확률은 0.95이므로,

 이 세 개의 비교군에서 모두 귀무가설이 참일 확률은 0.95*0.95*0.95=0.8574로, 85.74%가 된다.

 따라서 제 1종의 오류가 발생할 확률은 1-0.8574=0.1426이므로, 14.75%가 된다.

 

 

 

📝 예시를 들어보자.

- 두 개의 과목이 있고 이 두 과목 모두 세 문제가 있는 시험이 있다.

한 과목은 세 개 중에 한 개라도 맞추면 통과할 수 있고, 나머지 한 과목은 세 개 중 세 문제를 모두 맞춰야 통과할 수 있다면 무엇을 선택할 것인가?

위 문제를 생각해보면 당연히 세 개 중 한 개라도 맞추면 시험을 통과하는 과목을 선택할 것이다. 세 개 중 세 개를 모두 맞출 확률보다 세 개 중 한 개를 맞출 확률이 더 높기 때문이다.

 

위 다중비교 (Multiple Comparison tests)도 위 예시와 마찬가지의 문제이다.

세 번째 검정처럼 세 가지를 동시에 만족해야 귀무가설을 기각할 수 없다면, 만약 한 개라도 틀릴 경우 제 1종의 오류를 범하게 된다.

따라서 이를 조정해 줄 필요가 있고, 이 조정에는 본페로니 등 여러 가지 방법이 있다.

 

이 방법들에 대해서는 다음 글에서 다루도록 하겠다.

 

 

반응형
반응형

 

지난 글에서 통계 검정에서 빼놓을 수 없는 유의확률 (P-value)에 대한 잘못된 해석, 사용 등을 살펴보았다.

2022.12.25 - [STATISTICS] - Effect size : 효과 크기와 유의확률 (p-value) (1)

 

Effect size : 효과 크기와 유의확률 (p-value) (1)

효과크기를 논하기 전에 P-value = 유의확률에 대해 언급하지 않을 수 없다. 어떤 통계적인 결론을 내릴 때 가장 많이 사용되는 지표인데, 정말 통계를 배우면서 지겹도록(?) 많이 나오고, 많이 사

bioinformatics-kleis.tistory.com

 

지난 글에서 <p-value가 더 작음 ≠ 더 큰 차이> 라는 것을 살펴보았다면,

이번 글에서는 차이를 보여주는 Effect Size 에 대해 살펴보도록 하겠다.

 

Effect size 의 정의에 대해 먼저 살펴보자.

"Effect size 효과크기"는 변수들 사이의 관계가 얼마나 의미 있는지, 혹은 그룹들 사이의 차이가 얼마나 의미 있는지를 나타내는 지표이다.

 

따라서 Effect size가 크다면, 연구 결과가 significance 함을 나타내고,

만약 p-value가 매우 작더라도, effect size가 작게 나온다면 연구 결과는 제한적임을 알 수 있다.

 

 

✔️통계적 유의성(Statistical significance)P -value에 의해 알 수 있고,

✔️실제적 유의성(Practical significance)effect size 효과크기에 의해 알 수 있다.

 

따라서,

1) P -value로 통계적으로 유의한지 살펴본 후에,

2) effect size로 정말 실질적으로 적용가능한지 살펴보는 순서로 연구를 진행하는 것이 좋다.

+ 신뢰구간도 제시하는 것이 좋다.

 

예를 들어,

어떤 두 그룹의 점수 차이(3점)가 있는지 알고 싶어 유의수준 5% 하에서 t-test를 진행하여 p-value가 0.002가 나왔다면,

두 그룹의 차이가 통계적으로 유의하다는 결론을 내릴 수 있다.

 

P -value가 0.002라는 것은 두 그룹이 차이가 없다는 귀무가설 하에 3점이라는 차이를 보일 확률이 0.002라는 것이다.

앞 글에서 이 확률이 두 그룹이 얼마나 큰 차이가 있음을 보여주는 것이 아니라 했다.

 

따라서 이 3점이라는 차이가 얼마나 큰 차이인지, 아니면 작은 차이인지 확인하기 위해서 효과 크기 Effect Size를 사용해야 한다.

 

앞선 글에서 했던 얘기지만 너무 중요해서 다시 한 번 강조했다.

 

 

아무튼 Effect size 효과크기는 어떻게 측정할 수 있을까?

가장 많이 사용되는 효과 크기 측정법은

(1) Cohen's d (2) Pearson's r 이 있다.

 

 

Ⅰ. Cohen's d 

- 두 그룹의 difference (차이) 가 얼마나 있는지, difference size를 측정한다.

 

Cohen's d 를 구하는 식은 다음과 같다.

$$ d= \frac{\bar{x}_{1}-\bar{x}_{2}}{s} $$

그룹1의 평균에서 그룹2의 평균을 빼고, 이 차이를 표준편차로 나눠 준 값이다.

 

위 수식의 표준편차는 다음과 같이 세 가지 중 연구 설계에 맞게 사용하면 된다.

  • pooled standard deviation
  • control group의 standard deviation (사례-대조군 연구와 같이 대조군 vs 사례군 비교할 때)
  • pre-test data의 standard deviation (반복측정 연구와 같이 pre-test 와 post-test 를 비교하고 싶을 때)

 

Ⅱ. Pearson's r

- 두 변수의 관계가 얼마나 강한지, linear reliationship 정도를 측정한다.

 

Pearson's r 을 구하는 식은 다음과 같다.

$$ \rho_{X,Y}=\frac{cov(X,Y)}{\sigma_{X}\sigma_{Y}} $$

어디서 많이 본 것 같은데?

상관관계를 보고자 할 때 사용하는 상관계수를 구하는 식과 같다.

 

 

 

❗위와 같이 Effect size를 구했는데, 그럼 그 해석은 어떻게 하냐?

    보통 아래 표와 같이,

    cohen's d 의 경우는 0.2이하면 효과크기가 작다고 할 수 있고,

    0.5 정도면 medium, 0.8보다 크면 효과 크기가 커서 두 그룹의 차이가 정말로 크다고 할 수 있다.

출처: Scribbr

Pearson's r 을 해석하는 것도 마찬가지이다. 

상관계수를 해석할 때 처럼, 0에 가까워질수록 두 변수의 상관관계는 약한 것이고, 

0으로부터 멀어질수록 두 변수의 상관관계는 강하다고 할 수 있다.

 

따라서 내 연구 주제가 그룹별 차이를 보고 싶거나, 두 변수의 관계를 보고 싶을 때에는

p-value를 제시하고, 효과 크기, confidence interval을 함께 제시하는 것이 좋다.

 

그럼 효과크기는 여기서 끝!

반응형
반응형

효과크기를 논하기 전에 P-value = 유의확률에 대해 언급하지 않을 수 없다.

 

어떤 통계적인 결론을 내릴 때 가장 많이 사용되는 지표인데,

정말 통계를 배우면서 지겹도록(?) 많이 나오고, 많이 사용된다.

 

효과 크기를 주제로 삼았는데, 왜 유의확률 이야기를 먼저 꺼내냐면..

 

통계검정을 할 때, 유의확률을 너무도 절대적인 기준으로 삼을 때, 검정 결과 해석에 오류가 있을 수 있기 때문이다. 

생각보다 의학•보건 저널에서 이러한 p-value의 오류는 매우 매우 많이 보인다.

 

 

📖 예를 들어보자.

1. 도쿄 사람들의 평균 키가 런던 사람들의 평균 키보다 유의미하게 다른지 통계적으로 검정하고 싶어

각 두 도시에서 표본을 추출하여 t-test를 실시했다.

그 결과 p-value 가 0.01로 나와 두 도시 사람들의 키는 유의미하게 다르다고 결론을 내렸다.

 

마찬가지로,

2. 베를린 사람들의 평균 키가 파리 사람들의 평균 키보다 유의미하게 다른지 통계적으로 검정하기 위해

두 도시에서 표본을 추출하여 t-test를 실시했다.

그 결과 p-value 가 0.001로 나와 두 도시 사람들의 키는 유의미하게 다르다고 결론을 내렸다.

 

 

❓그럼 여기서 생각해보자.

'도쿄-런던' 사람들의 키 차이에 대한 p-value는 0.01, '베를린-파리' 사람들의 키 차이에 대한 p-value는 0.001이다.

⇨ "베를린-파리 사람들의 키 차이에 대한 p-value가 더 작으니까 이 두 도시 사람들의 키 차이가 '도쿄-런던' 도시 사람들의 키 차이보다 더 크겠군" 이라고 해석 할 수 있을까?

(당연히 안 되니까 이런 질문을 했겠지)

 

여기에서 P-value의 역할은

'도쿄-런던' 사람들의 키 차이가 통계적으로 유의미하게 다르다는 것, '베를린-파리' 사람들의 키 차이가 통계적으로 유의미하게 다르다는 것에서 끝나야 한다.

 

P-value가 더 작다고 해서 그것이 더 큰 차이가 있다는 정보를 주지 않음을 항상 염두에 두어야 한다.

 

다시 말하면, P-value가 더 작다고 해서 그것이 귀무가설이 얼마나 잘 못 되었는지가 아니라는 것이다.

 

따라서  "베를린-파리 사람들의 키 차이에 대한 p-value가 더 작으니까 이 두 도시 사람들의 키 차이가 '도쿄-런던' 도시 사람들의 키 차이보다 더 크겠군" 이라고 해석 할 수 있을까? 에 대한 대답은..

⇨ "당연히 이렇게 해석하면 안 된다." 이다. 

 

P-value의 개념을 다시 한 번 짚어보면..

유의확률은 '귀무가설 하에서' 통계량을 관측할 확률이다.

 

이는 아래 그림에서도 잘 표현이 된다.

출처: Stanford Medicine / News / Bad statistics in journals

위 키 차이에 대한 예시를 다시 한 번 살펴보면,

1) '도쿄-런던' 사람들의 평균 키 차이는 10cm, 이에 대한 p-value는 0.01,

2) '베를린-파리' 사람들의 평균 키 차이는 5cm, 이에 대한 p-value는 0.001 라고 할 때,

 

"귀무가설(Null hypothesis) = 두 도시 사람들의 키 차이는 없다." 이므로

 

'도쿄-런던' 사람들의 평균 키 차이는 10cm, 유의확률이 0.01이라는 의미는

⇨ "두 도시 사람들의 키 차이가 없는 것이 사실이라고 했을 때,

     평균 키 차이가 10cm 가 관측될 확률이 0.01" 이라는 의미이다.

 

마찬가지로,

'베를린-파리' 사람들의 평균 키 차이는 5cm, 유의확률이 0.001이라는 것은

⇨ "두 도시 사람들의 키 차이가 없는 것이 사실이라고 했을 때,

     평균 키 차이가 5cm 가 관측될 확률이 0.001" 이라는 의미이다.

 

따라서 더 작은 유의확률이라고 해서 그것이 더 큰 차이를 의미하는 것이 아님을 위 예시에서 살펴보았다.

 

그럼 이러한 차이를 보여주는 통계량이 있을까?

(있으니까 물어봤겠지)

 

당연히 있다!

 

그것이 바로 <Effect Size = 효과 크기>인데, 여기에서 너무 말이 길어져서 다음 글에서 이어서 살펴보도록 하겠다.

 

여기에서는 일단 <p-value가 더 작음 ≠ 더 큰 차이> 를 명확하게 짚고, 앞으로 p-value를 해석할 때 유의하도록!

반응형
반응형

두 그룹의 모평균 비교를 위한 검정을 할 때 가장 많이 사용되는 방법 중 한 개인

"2-sample independent t-test"가 있다.

 

 

두 그룹 비교를 위해 가장 많이 사용되는 방법 중 한 검정법인데, 여러 까다로운(?) 가정들이 있다.

 

Two-sample independent t-test 통계검정법 중에서도,

모수적 검정법을 사용하려면 다음 가정들을 모두 만족해야 한다.

 

📌 Assumption 1

- 두 샘플 그룹은 서로 독립일 것

 

📌 Assumption 2

- 두 샘플 그룹의 평균이 모두 정규성을 만족할 것

- 모집단이 아님! "샘플 그룹의 평균"이 정규분포를 따라야 한다는 것 ⇨ 중심극한정리

 

📌 Assumption 3

- 두 샘플 그룹의 분산이 등분산일 때와, 이분산 일때를 구별해야 함.

 

 

2 sample independent t-test를 실시할 때, 위 가정을 어떻게 만족해야 하는지 예시를 통해 살펴보자.

 

📏 북미에 위치한 A 도시중앙아시아에 위치한 B 도시 주민들의 키 평균을 비교하고자 한다. 

 

내 가설은 A 도시 주민과 B 도시 주민들의 키는 유의미하게 차이가 있다는 것이다.

⇨ 귀무가설과 대립가설은 다음과 같다.

 

- Null hypothesis (귀무가설=영가설) : 

A 지역 주민의 키 평균 = B 지역 주민의 키 평균

 

- Alternative hypothesis (대립가설) : 

A 지역 주민의 키 평균 ≠ B 지역 주민의 키 평균

 

단, 대립가설은 나의 가설이 어떠냐에 따라 (ex. A>B, B>A) 달라질 수 있다.

 

 

A 도시에는 100 만 명의 주민이 살고 있고, B 도시에는 50만 명의 주민이 살고 있다고 해보자.

✔️ A 도시 사람들의 키와 B 도시 사람들의 키는 독립이다. (Assumption1 만족)

 

위 가설을 검정하기 위해서 총 150 만 명에 해당하는 모든 주민의 키를 전수조사하는 것은 불가능에 가깝다. 

 

따라서 우선 각 지역의 주민들을 랜덤으로 뽑아(=랜덤샘플링), 각 지역을 대표할 수 있는 표본을 구해야 할 것이다. 

이를 위해 각 도시를 대표할 수 있는 주민 100명을 각각 뽑아 평균을 조사하였다.

 

원래 정석으로는 주민 100명(=sample size)을 여러 번(예를 들어 30번=number of samples) 추출을 해야한다.

 

이렇게 예를 들어 30번을 추출한다 가정하면, 총 30개의 표본평균이 나올 것이고, 이 표본 평균들이 정규분포를 따르게 되는 것이다. (=중심극한정리)

 

그러나 현실적인 문제로 이렇게 샘플링을 하는 것은 많은 경우 불가능하므로,

첫 번째 샘플링 그룹의 표본평균을 보고, 이를 사용하게 된다.

 

중심극한정리에 따라 표본의 평균은 정규분포를 따른다.

 

즉, A 도시 주민의 키의 분포는 다음과 같다. 

$$ N(\mu_{1},\sigma^{2}) $$

 

한편 B 도시 주민의 키의 분포는 아래와 같다. 

$$ N(\mu_{2},\sigma^{2}) $$

 

 ✔️ A 도시 사람들의 키와 B 도시 사람들의 키는 정규성을 만족한다. (Assumption2 만족)

보통은 A도시에서 뽑힌 샘플과 B도시에서 뽑힌 샘플을 각각 shapiro-wilks 검정을 통해 정규성을 만족하는지 살펴본다.

 

여기서 잠깐❗

통계학을 배울 때 매우 중요하다고 배우는 것이 있는데, 바로 "중심극한정리"이다. 모집단의 분포가 어떠하더라도, 표본 평균은 정규분포를 따른다는 것이다.

 

만약 모집단이 포아송 분포를 따르고, 랜덤샘플링으로 표본을 30개씩 뽑는다면,

이 표본의 평균의 분포는 정규분포를 따른다.

 

모집단의 개체 수가 10,000 개이고, 30개 씩 100번 랜덤샘플링을 하면,

100개의 표본 평균 분포은 정규분포를 보이게 된다. 

 

따라서 원래는 랜덤샘플링을 여러 번 해야 정확하지만, 현실적으로는 불가능하기 때문에 한 번의 랜덤샘플링을 하고 이 표본의 평균이 모집단의 평균을 대표한다고 할 수 있다.

 

 

그런데..

 ❓❓ '샘플이 30개 이상이면 근사적으로 정규분포를 따르니까 정규성검정 안해도 된다고 했는데?' 

t-test 검정에 있어 정규성 가정에 대해서는 말이 많다. 결론적으로는 샘플이 크면 정규성 가정을 무시하고 t-test를 해도 좋지만, 그 상세한 이유는 나중에 다루기로 한다.

 

 ✔️ 마지막으로 두 그룹의 등분산 검정을 실시하여 두 그룹의 분산이 비슷하다면 통계프로그램에서 등분산의 조건을 주어 t-test를 진행하면 된다. 

 만약 등분산 검정에서 두 그룹의 분산이 다르다면 welch 검정 (or Satterthwaite)를 사용하면 된다.

반응형
반응형

 이산형 확률분포의 종류

 : 베르누이분포, 이항분포, 이산형균등분포, 기하분포, 초기하분포, 음이항 분포, 포아송 분포

 

 각 이산형 확률분포를 살펴보도록 하겠다. 

 

이산형 확률변수의 적률생성함수는 다음과 같은 형태로 표현된다.

$$ M_{X}(t)=E(e^{tX})=\sum_{x=0}^{\infty}e^{tx}f(x) $$

 

 

1. 베르누이 분포

베르누이 시행의 확률변수 X의 분포는 X=1의 확률에 의해 정의된다. (X=0 or 1)

P=P(X=1)=P(성공)

베르누이 시행의 확률질량함수 f(x)는

$$ f(x) = p^{x}(1-p)^{1-x}, x=0, 1 $$

베르누이 분포의 기댓값과 분산은 다음과 같다.

E(X)=p, Var(X)=p(1-p)

 

베르누이분포의 적률생성함수는 다음과 같다.

$$ M(t)=E(e^{tx})=(1-p)+pe^{t} $$

적률생성함수 유도 과정은 아래와 같이 진행할 수 있다.

$$ M(t)=E(e^{tX})=\sum_{x=0}^{1}e^{tx}f(x)=\sum_{x=0}^{1}e^{tx}p^{x}(1-p)^{1-x}=e^{0}p^{0}(1-p)^{1}+e^{t}p^{1}(1-p)^{0}=(1-p)+pe^{t} $$

적률생성함수를 t에 대해 1차 미분한 후 t값에 0을 대입하면 평균을 도출할 수 있다.

베르누이 분포의 적률생성함수를 1차 미분하면 

$$ M(t)=(1-p)+pe^{t}\Rightarrow M^{'}(t)=\frac{d}{dt}(1-p+pe^{t})=pe^{t} \Rightarrow M^{'}(0)=p $$

 

 

2. 이항분포

베르누이 시행을 독립적으로 n번 반복하여 시행한 경우, 성공한 총 횟수를 X라 정의하면, 이 확률변수 X는 이항분포를 따른다.

이항분포의 확률질량함수 f(x)는 다음과 같다.

$$ f(x)=\binom{n}{x}p^{x}(1-p)^{n-x}, x= 0,1,2,...,n $$

이항분포의 기댓값 E(X)=np, Var(X)=np(1-p) 이다.

이항분포 B(n, p)를 따르는 확률변수의 적률생성함수는 다음과 같다.

$$ M(t)=\sum_{x=0}^{n}e^{tx}f(x)=\sum_{x=0}^{n}e^{tx}\binom{n}{x}p^{x}(1-p)^{n-x}=[(1-p)+pe^{t}]^{n} $$

만약 n이 1이라면 베르누이분포의 적률생성함수가 된다.

 

 

3. 포아송분포

포아송분포는 이항분포에서 반복횟수인 n이 충분히 크고 성공률 p가 0에 가까울 정도로 작으면서 평균이 np=⋋일 때의 분포이다.

포아송분포는 이항분포와 밀접한 관계가 있는데, p의 값이 매우 작고 평균이 일정할 때 n이 커지면 이항분포는 포아송분포로 표현된다.

n ⇨ ∞ , p ⇨ 0 이며, np=⋋라고 가정하면 아래 식이 성립한다.

$$ \displaystyle \lim_{ n\to \infty}\binom{n}{x}p^{x}(1-p)^{n-x} $$

위 식을 풀어보면,

$$ \displaystyle \lim_{ n\to \infty}\binom{n}{x}p^{x}(1-p)^{n-x}=\displaystyle \lim_{ n\to \infty}\frac{n(n-1)\cdots (n-x+1)}{x!}(\frac{\lambda}{n})^{x}(1-\frac{\lambda}{n})^{n-x} $$

또 위의 식을 풀어보면 다음과 같다.

$$ \frac{\lambda^{x}}{x!}\displaystyle \lim_{ n\to \infty}(1-\frac{\lambda}{n})^{n}(1-\frac{\lambda}{n})^{-x}(1-\frac{1}{n})(1-\frac{2}{n})\cdots (1-\frac{x-1}{n}) $$

위 식에서 다음 성질을 만족하기 때문에

$$ \displaystyle \lim_{ n\to \infty}(1-\frac{\lambda}{n})^{n}=\displaystyle \lim_{ n\to \infty}[(1-\frac{\lambda}{n})^{\frac{n}{-\lambda}}]^{-\lambda}=e^{-\lambda} $$

다음과 같이 이항분포가 n이 매우 커지고 p값이 작을 때 포아송분포로 근사함을 표현할 수 있다.

$$ \lim_{ n\to \infty}\binom{n}{x}p^{x}(1-p)^{n-x}=\frac{\lambda^{x}e^{-\lambda}}{x!} $$

포아송분포의 확률질량함수는 다음과 같이 표현할 수 있다.

$$ f(x)=P(X=x)=\frac{\lambda^{x}e^{-\lambda}}{x!}, x=0,1,2,\cdots (\lambda>0) $$

확률질량함수를 통해 포아송분포의 적률생성함수를 아래와 같이 도출할 수 있다.

$$ M(t)=\sum_{x=0}^{\infty}e^{tx}\frac{\lambda^{x}e^{-\lambda}}{x!}=e^{-\lambda}\sum_{x=0}^{\infty}\frac{(\lambda e^{t})^{x}}{x!} $$

이를 테일러 전개를 이용하여 정리하면 

$$ M(t)=e^{-\lambda}\sum_{x=0}^{\infty}\frac{(\lambda e^{t})^{x}}{x!}=e^{\lambda(e^{t}-1)} $$ 

위 적률생성함수를 t에 대해 1차 미분한 후 t에 0을 대입하면, 포아송분포의 기댓값을 구할 수 있다.

반응형
반응형

 

처음 통계를 접할 때 이해하기 어려웠던 것이 모평균, 표본평균, 표본평균의 평균 개념이었다.

 

지금 생각해보면 저 단어의 의미를 잘 살펴보기만 하면 크게 어렵지 않은 개념인데,

처음엔 다 어렵듯이 표본평균과 표본평균의 평균이라는 개념이 잘 이해가 가지 않았다. 

 

표본평균은 표본들의 평균이고, 왜 구하는지 이해가 갔는데

표본평균의 평균은 도대체 왜 구해야하는지 잘 이해가 가지 않았다.

 

 

표본평균은 중요한 성질들이 있다. 모집단을 임의로 정한 후, 시뮬레이션을 해보면,

1) 표본평균의 전체평균은 모평균과 같다.

2) 표본평균은 모평균의 비편향추정량(unbiased estimator)이다.

3) 표본평균은 모평균과 서로 다르지만 표본평균의 도수들은 모평균 주위에 많이 몰려 있다.

4) 모든 가능한 표본평균의 분포는 모평균을 중심으로 대칭형이다.

 

모집단이 매우 크다면, 모든 가능한 표본을 찾아 표본평균의 분포를 찾는 것은 불가능하지만

위 성질들은 ①모집단이 크거나 ②다른 분포형태를 가져도, 변함이 없다.

 

모평균 µ와 모분산 σ를 갖는 모집단에서 추출한 랜덤표본을 X1 , X2 , ... , Xn 이라 하면, 이들의 표본평균은 다음과 같다.

$$ \overline{X} = \frac{1}{n}(X_{1}+X_{2}+...+X_{n}) $$ 

$$ E(\overline{X})=\mu, Var(\overline{X})=\frac{\sigma^{2}}{n} $$

 

모집단이 무한모집단이고 표본크기가 충분히 크면 모집단이 어떠한 분포이더라도 표본평균의 분포는 근사적으로 정규분포를 따른다. 이를 중심극한정리(central limit theorem)라 한다. 

중심극한정리에 따르면 모집단의 분포와 관계없이 표본크기가 충분이 크면 표본평균은 정규분포를 따른다. 

$$ \overline{X} \sim N(\mu, \frac{\sigma^{2}}{n}) $$

 

따라서 이항확률변수(binomial)의 분포 역시, 표본크기 n이 충분히 큰 경우 근사적으로 정규분포를 따르게 된다.

이항분포 B(n, p)를 따르는 확률변수 X는 n이 충분히 클 때, 근사적으로 평균이 np, 분산이 np(1-p)인 정규분포 N(np, np(1-p))를 따른다.

$$ \frac{X-np}{\sqrt{np(1-p)}} \sim N(0, 1) $$

 

 

반응형
반응형

동전 던지기 실험

Binomial distribution

이항분포에 앞서 베르누이분포가 있다.
모든 가능한 결과가 두 가지인 실험(표본공간이 {불량품, 양호품},{찬성, 반대} 등)을 베르누이 시행(Bernoulli trial)이라 한다.
 

성공확률을 p라고 할 때, '성공'이면 1, '실패'면 0으로 대응시키는 확률변수를 베르누이 확률변수라 한다. 베르누이 확률변수 X의 확률분포는 다음과 같이 정의할 수 있다.

 

$$ P(X=x) = p^{x}(1-p)^{1-x}, x=0,1 $$
 

따라서, X=0인 경우에는 P(X=0) = (1-p)이고, X=1인 경우에는 P(X=1) = p가 된다.

 

베르누이분포의 평균은 E(X)=p, Var(X)=p(1-p) 이다.

 
 

이처럼 동일한 성공확률을 가진 베르누이 시행독립적으로 반복하여 시행할 때,

'X=성공횟수'의 분포를 이항분포(binomial distribution)이라 한다.
 

성공확률이 p인 베르누이 시행을 n번 독립적으로 반복 시행할 때, '성공횟수(=X)'가 x일 확률은 다음과 같이 표시할 수 있다.

$$ P(X=x) = (\frac{n}{x})p^{x}(1-p)^{n-x}, x=0,1,2, ..., n $$
 

이항분포의 평균은 E(X)=np, 분산은 Var(X)=np(1-p) 이다.

 

증명은 https://proofwiki.org/wiki/Variance_of_Binomial_Distribution 참고하면 된다.

 

여기에서 n, p를 이항분포의 모수(parameter)라 한다.

 

만약 n=1이라면, 이항분포 B(n, p)는 '1(성공)'의 확률이 p인 베르누이분포이다.

 

참고로 모수는 모집단의 특성값으로, 평균, 분산, 성공확률 등을 예시로 들 수 있다.

 

반응형

+ Recent posts