반응형

 

처음 통계를 접할 때 이해하기 어려웠던 것이 모평균, 표본평균, 표본평균의 평균 개념이었다.

 

지금 생각해보면 저 단어의 의미를 잘 살펴보기만 하면 크게 어렵지 않은 개념인데,

처음엔 다 어렵듯이 표본평균과 표본평균의 평균이라는 개념이 잘 이해가 가지 않았다. 

 

표본평균은 표본들의 평균이고, 왜 구하는지 이해가 갔는데

표본평균의 평균은 도대체 왜 구해야하는지 잘 이해가 가지 않았다.

 

 

표본평균은 중요한 성질들이 있다. 모집단을 임의로 정한 후, 시뮬레이션을 해보면,

1) 표본평균의 전체평균은 모평균과 같다.

2) 표본평균은 모평균의 비편향추정량(unbiased estimator)이다.

3) 표본평균은 모평균과 서로 다르지만 표본평균의 도수들은 모평균 주위에 많이 몰려 있다.

4) 모든 가능한 표본평균의 분포는 모평균을 중심으로 대칭형이다.

 

모집단이 매우 크다면, 모든 가능한 표본을 찾아 표본평균의 분포를 찾는 것은 불가능하지만

위 성질들은 ①모집단이 크거나 ②다른 분포형태를 가져도, 변함이 없다.

 

모평균 µ와 모분산 σ를 갖는 모집단에서 추출한 랜덤표본을 X1 , X2 , ... , Xn 이라 하면, 이들의 표본평균은 다음과 같다.

$$ \overline{X} = \frac{1}{n}(X_{1}+X_{2}+...+X_{n}) $$ 

$$ E(\overline{X})=\mu, Var(\overline{X})=\frac{\sigma^{2}}{n} $$

 

모집단이 무한모집단이고 표본크기가 충분히 크면 모집단이 어떠한 분포이더라도 표본평균의 분포는 근사적으로 정규분포를 따른다. 이를 중심극한정리(central limit theorem)라 한다. 

중심극한정리에 따르면 모집단의 분포와 관계없이 표본크기가 충분이 크면 표본평균은 정규분포를 따른다. 

$$ \overline{X} \sim N(\mu, \frac{\sigma^{2}}{n}) $$

 

따라서 이항확률변수(binomial)의 분포 역시, 표본크기 n이 충분히 큰 경우 근사적으로 정규분포를 따르게 된다.

이항분포 B(n, p)를 따르는 확률변수 X는 n이 충분히 클 때, 근사적으로 평균이 np, 분산이 np(1-p)인 정규분포 N(np, np(1-p))를 따른다.

$$ \frac{X-np}{\sqrt{np(1-p)}} \sim N(0, 1) $$

 

 

반응형

+ Recent posts