반응형

 이산형 확률분포의 종류

 : 베르누이분포, 이항분포, 이산형균등분포, 기하분포, 초기하분포, 음이항 분포, 포아송 분포

 

 각 이산형 확률분포를 살펴보도록 하겠다. 

 

이산형 확률변수의 적률생성함수는 다음과 같은 형태로 표현된다.

$$ M_{X}(t)=E(e^{tX})=\sum_{x=0}^{\infty}e^{tx}f(x) $$

 

 

1. 베르누이 분포

베르누이 시행의 확률변수 X의 분포는 X=1의 확률에 의해 정의된다. (X=0 or 1)

P=P(X=1)=P(성공)

베르누이 시행의 확률질량함수 f(x)는

$$ f(x) = p^{x}(1-p)^{1-x}, x=0, 1 $$

베르누이 분포의 기댓값과 분산은 다음과 같다.

E(X)=p, Var(X)=p(1-p)

 

베르누이분포의 적률생성함수는 다음과 같다.

$$ M(t)=E(e^{tx})=(1-p)+pe^{t} $$

적률생성함수 유도 과정은 아래와 같이 진행할 수 있다.

$$ M(t)=E(e^{tX})=\sum_{x=0}^{1}e^{tx}f(x)=\sum_{x=0}^{1}e^{tx}p^{x}(1-p)^{1-x}=e^{0}p^{0}(1-p)^{1}+e^{t}p^{1}(1-p)^{0}=(1-p)+pe^{t} $$

적률생성함수를 t에 대해 1차 미분한 후 t값에 0을 대입하면 평균을 도출할 수 있다.

베르누이 분포의 적률생성함수를 1차 미분하면 

$$ M(t)=(1-p)+pe^{t}\Rightarrow M^{'}(t)=\frac{d}{dt}(1-p+pe^{t})=pe^{t} \Rightarrow M^{'}(0)=p $$

 

 

2. 이항분포

베르누이 시행을 독립적으로 n번 반복하여 시행한 경우, 성공한 총 횟수를 X라 정의하면, 이 확률변수 X는 이항분포를 따른다.

이항분포의 확률질량함수 f(x)는 다음과 같다.

$$ f(x)=\binom{n}{x}p^{x}(1-p)^{n-x}, x= 0,1,2,...,n $$

이항분포의 기댓값 E(X)=np, Var(X)=np(1-p) 이다.

이항분포 B(n, p)를 따르는 확률변수의 적률생성함수는 다음과 같다.

$$ M(t)=\sum_{x=0}^{n}e^{tx}f(x)=\sum_{x=0}^{n}e^{tx}\binom{n}{x}p^{x}(1-p)^{n-x}=[(1-p)+pe^{t}]^{n} $$

만약 n이 1이라면 베르누이분포의 적률생성함수가 된다.

 

 

3. 포아송분포

포아송분포는 이항분포에서 반복횟수인 n이 충분히 크고 성공률 p가 0에 가까울 정도로 작으면서 평균이 np=⋋일 때의 분포이다.

포아송분포는 이항분포와 밀접한 관계가 있는데, p의 값이 매우 작고 평균이 일정할 때 n이 커지면 이항분포는 포아송분포로 표현된다.

n ⇨ ∞ , p ⇨ 0 이며, np=⋋라고 가정하면 아래 식이 성립한다.

$$ \displaystyle \lim_{ n\to \infty}\binom{n}{x}p^{x}(1-p)^{n-x} $$

위 식을 풀어보면,

$$ \displaystyle \lim_{ n\to \infty}\binom{n}{x}p^{x}(1-p)^{n-x}=\displaystyle \lim_{ n\to \infty}\frac{n(n-1)\cdots (n-x+1)}{x!}(\frac{\lambda}{n})^{x}(1-\frac{\lambda}{n})^{n-x} $$

또 위의 식을 풀어보면 다음과 같다.

$$ \frac{\lambda^{x}}{x!}\displaystyle \lim_{ n\to \infty}(1-\frac{\lambda}{n})^{n}(1-\frac{\lambda}{n})^{-x}(1-\frac{1}{n})(1-\frac{2}{n})\cdots (1-\frac{x-1}{n}) $$

위 식에서 다음 성질을 만족하기 때문에

$$ \displaystyle \lim_{ n\to \infty}(1-\frac{\lambda}{n})^{n}=\displaystyle \lim_{ n\to \infty}[(1-\frac{\lambda}{n})^{\frac{n}{-\lambda}}]^{-\lambda}=e^{-\lambda} $$

다음과 같이 이항분포가 n이 매우 커지고 p값이 작을 때 포아송분포로 근사함을 표현할 수 있다.

$$ \lim_{ n\to \infty}\binom{n}{x}p^{x}(1-p)^{n-x}=\frac{\lambda^{x}e^{-\lambda}}{x!} $$

포아송분포의 확률질량함수는 다음과 같이 표현할 수 있다.

$$ f(x)=P(X=x)=\frac{\lambda^{x}e^{-\lambda}}{x!}, x=0,1,2,\cdots (\lambda>0) $$

확률질량함수를 통해 포아송분포의 적률생성함수를 아래와 같이 도출할 수 있다.

$$ M(t)=\sum_{x=0}^{\infty}e^{tx}\frac{\lambda^{x}e^{-\lambda}}{x!}=e^{-\lambda}\sum_{x=0}^{\infty}\frac{(\lambda e^{t})^{x}}{x!} $$

이를 테일러 전개를 이용하여 정리하면 

$$ M(t)=e^{-\lambda}\sum_{x=0}^{\infty}\frac{(\lambda e^{t})^{x}}{x!}=e^{\lambda(e^{t}-1)} $$ 

위 적률생성함수를 t에 대해 1차 미분한 후 t에 0을 대입하면, 포아송분포의 기댓값을 구할 수 있다.

반응형
반응형

 

처음 통계를 접할 때 이해하기 어려웠던 것이 모평균, 표본평균, 표본평균의 평균 개념이었다.

 

지금 생각해보면 저 단어의 의미를 잘 살펴보기만 하면 크게 어렵지 않은 개념인데,

처음엔 다 어렵듯이 표본평균과 표본평균의 평균이라는 개념이 잘 이해가 가지 않았다. 

 

표본평균은 표본들의 평균이고, 왜 구하는지 이해가 갔는데

표본평균의 평균은 도대체 왜 구해야하는지 잘 이해가 가지 않았다.

 

 

표본평균은 중요한 성질들이 있다. 모집단을 임의로 정한 후, 시뮬레이션을 해보면,

1) 표본평균의 전체평균은 모평균과 같다.

2) 표본평균은 모평균의 비편향추정량(unbiased estimator)이다.

3) 표본평균은 모평균과 서로 다르지만 표본평균의 도수들은 모평균 주위에 많이 몰려 있다.

4) 모든 가능한 표본평균의 분포는 모평균을 중심으로 대칭형이다.

 

모집단이 매우 크다면, 모든 가능한 표본을 찾아 표본평균의 분포를 찾는 것은 불가능하지만

위 성질들은 ①모집단이 크거나 ②다른 분포형태를 가져도, 변함이 없다.

 

모평균 µ와 모분산 σ를 갖는 모집단에서 추출한 랜덤표본을 X1 , X2 , ... , Xn 이라 하면, 이들의 표본평균은 다음과 같다.

$$ \overline{X} = \frac{1}{n}(X_{1}+X_{2}+...+X_{n}) $$ 

$$ E(\overline{X})=\mu, Var(\overline{X})=\frac{\sigma^{2}}{n} $$

 

모집단이 무한모집단이고 표본크기가 충분히 크면 모집단이 어떠한 분포이더라도 표본평균의 분포는 근사적으로 정규분포를 따른다. 이를 중심극한정리(central limit theorem)라 한다. 

중심극한정리에 따르면 모집단의 분포와 관계없이 표본크기가 충분이 크면 표본평균은 정규분포를 따른다. 

$$ \overline{X} \sim N(\mu, \frac{\sigma^{2}}{n}) $$

 

따라서 이항확률변수(binomial)의 분포 역시, 표본크기 n이 충분히 큰 경우 근사적으로 정규분포를 따르게 된다.

이항분포 B(n, p)를 따르는 확률변수 X는 n이 충분히 클 때, 근사적으로 평균이 np, 분산이 np(1-p)인 정규분포 N(np, np(1-p))를 따른다.

$$ \frac{X-np}{\sqrt{np(1-p)}} \sim N(0, 1) $$

 

 

반응형
반응형

동전 던지기 실험

Binomial distribution

이항분포에 앞서 베르누이분포가 있다.
모든 가능한 결과가 두 가지인 실험(표본공간이 {불량품, 양호품},{찬성, 반대} 등)을 베르누이 시행(Bernoulli trial)이라 한다.
 

성공확률을 p라고 할 때, '성공'이면 1, '실패'면 0으로 대응시키는 확률변수를 베르누이 확률변수라 한다. 베르누이 확률변수 X의 확률분포는 다음과 같이 정의할 수 있다.

 

$$ P(X=x) = p^{x}(1-p)^{1-x}, x=0,1 $$
 

따라서, X=0인 경우에는 P(X=0) = (1-p)이고, X=1인 경우에는 P(X=1) = p가 된다.

 

베르누이분포의 평균은 E(X)=p, Var(X)=p(1-p) 이다.

 
 

이처럼 동일한 성공확률을 가진 베르누이 시행독립적으로 반복하여 시행할 때,

'X=성공횟수'의 분포를 이항분포(binomial distribution)이라 한다.
 

성공확률이 p인 베르누이 시행을 n번 독립적으로 반복 시행할 때, '성공횟수(=X)'가 x일 확률은 다음과 같이 표시할 수 있다.

$$ P(X=x) = (\frac{n}{x})p^{x}(1-p)^{n-x}, x=0,1,2, ..., n $$
 

이항분포의 평균은 E(X)=np, 분산은 Var(X)=np(1-p) 이다.

 

증명은 https://proofwiki.org/wiki/Variance_of_Binomial_Distribution 참고하면 된다.

 

여기에서 n, p를 이항분포의 모수(parameter)라 한다.

 

만약 n=1이라면, 이항분포 B(n, p)는 '1(성공)'의 확률이 p인 베르누이분포이다.

 

참고로 모수는 모집단의 특성값으로, 평균, 분산, 성공확률 등을 예시로 들 수 있다.

 

반응형
반응형

 회귀모형을 적합할 때 적합하고자 하는 모형의 반응변수가 Binary data라면 어떻게 모형을 만들어야 할까?

 

반응변수가 두 가지의 범주를 갖고 있는 경우가 참 많다.

예를 들면..

(예, 아니오) (성공, 실패) (양성, 음성)

 

이항반응변수를 Y라 표시하고, 성공을 1, 실패를 0이라 나타내면,

반응변수 Y의 분포는 성공에 대한 확률 P(Y=1)=π 와 실패에 대한 확률 P(Y=0)=(1-π)로 표현할 수 있다.

 

이 분포의 평균 E(Y)=π 이며, n개의 서로 독립적인 이항반응변수의 관측값으로부터 관측된 성공횟수는 nπ를 모수로 갖는 이항분포를 따른다.

모수: n, π

 

이항반응변수를 갖는 값들을 회귀모델을 만드는 방법은 크게 두 가지이다.

 

1. 선형확률모형

먼저 이항반응변수를 갖는 값들을 보통선형모형을 이용해 항등연결함수를 사용해보도록 하겠다.

$$ P(Y=1)=\alpha+\beta_{1}x_{1}+\cdots +\beta_{p}x_{p} $$

이 모형은 성공확률이 설명변수에 따라 선형적으로 변하므로 Linear probability model 라고 부른다.

다른 변수가 고정되어 있을 때, x1이 한 단위 변한다면 모수 Beta1은 확률 P(Y=1)의 변화량을 의미한다.

한계점: 확률은 0과 1 사이의 값. 선형함수는 실수 전체에 걸쳐 값을 가질 수 있음. 

 

2. 로지스틱 회귀모형

P(Y=1) 와 x의 관계는 비선형 형태이다. x의 변화량은 P(Y=1)가 0이나 1에 가까이 있을 때, 중앙일 때보다 영향을 덜 미치게 된다. 

로지스틱 회귀함수 Logistic regression function은 다음과 같이 표현할 수 있다.

$$ P(Y=1) = \frac{exp(\alpha+\beta x)}{1+exp(\alpha+\beta x)} $$

모수 베타는 곡선이 증가하거나 감소하는 속도를 결정함.

 

만일 설명변수가 여러개라면 다음과 같이 표현 가능하다.

$$ log[\frac{P(Y=1)}{1-P(Y=1)}]=\alpha+\beta_{1}x_{1}+\cdots +\beta_{p}x_{p} $$

 

로지스틱 회귀모형은 GLM의 특별한 경우다.

랜덤성분은 이항분포

연결함수는 π=P(Y=1) 의 로짓변환인 log[π/(1-π)] = logit(π)

반응형

+ Recent posts