반응형

 

 

Distribution 별 수리 통계학을 정리의 첫 번째는 Bernoulli distribution 이다.

 

출처 : wikipedia

 

베르누이 분포는 동전의 앞, 뒤처럼 오직 두 가지 범주만 가진 이산형 확률분포이다.

 

 

예를 들어, 시험을 봤을 때 60점 이상이면 합격, 미만이면 불합격이라 하자.

- 60점 이상 = 합격 ⇨ 이를 1이라 하고, 합격할 확률을 P(X=1) 로 표기할 수 있다.

- 60점 미만 = 불합격 ⇨ 이를 0이라 하고, 불합격할 확률을 P(X=0) 로 표기할 수 있다.

 

 

❗베르누이 분포의 확률질량함수 𝒇(𝒙)는 다음과 같다.

$$ f(x)=P(X=x)=p^{x}(1-p)^{1-x}, x=0,1 $$

 

 

❗베르누이 분포를 따르는 확률변수의 기댓값 E(X)=p, 분산 Var(X)=p(1-p) 이다.

 

 

❗베르누이 분포의 적률생성함수는 다음과 같다.

$$ M(t)=E(e^{tX})=(1-p)+pe^{t} $$

 

 

위 적률생성함수를 증명해보자.

베르누이분포는 이산형 확률분포이므로, 베르누이분포를 따르는 확률변수 X의 적률생성함수는 다음과 같이 정의된다.

$$ M_{X}(t)=E(e^{tX})=\sum_{x=0}^{\infty}e^{tx}f(x)=\sum_{x=0}^{\infty}e^{tx}p^{x}(1-p)^{1-x} $$

𝒙는 오로지 0과 1이므로, 이를 위에 대입하면,

$$ M_{X}(t)=\sum_{x=0}^{\infty}e^{tx}p^{x}(1-p)^{1-x}=e^{0}p^{0}(1-p)^{1} + e^{t}p^{1}(1-p)^{0}=(1-p)+pe^{t} $$

따라서 베르누이분포의 적률생성함수는 다음과 같다.

$$ M_{X}(t)=(1-p)+pe^{t} $$

 

 

✏이번에는 베르누이분포의 가능도함수, 로그가능도함수를 살펴본 후 최대가능도추정량을 구해보도록 하겠다.

❗먼저 가능도함수를 구해보자.

$$ L(\theta)=\prod_{i=1}^{n}f(x_{i}|\theta)=\prod_{i=1}^{n}p^{x_{i}}(1-p)^{1-x_{i}}=p^{\sum_{i=1}^{n}x_{i}}(1-p)^{n-\sum_{i=1}^{n}x_{i}} $$

❗이 가능도함수에 로그를 취한 함수를 로그가능도함수라 하는데, 이를 구해보자.

가능도함수에 로그를 취하면 다음과 같고,

$$ logL(\theta)=log(p^{\sum_{i=1}^{n}x_{i}}(1-p)^{n-\sum_{i=1}^{n}x_{i}}) $$

이는 다음과 같이 풀이할 수 있다.

$$ logL(\theta)=\sum_{i=1}^{n}x_{i} logp + (n-\sum_{i=1}^{n}x_{i}) log(1-p) $$

 

 

가능도함수 L(θ|𝑥)는 확률표본에서 얻을 수 있는 모수의 모든 정보를 가지고 있다.

따라서 이를 바탕으로 모수에 대한 가능성이 가장 높은 통계량을 찾는 것을 고려할 수 있다.

모수 θ에 대해 가능도함수 L(θ|𝑥)를 최대로 하는 통계량을 최대가능도추정량이라 한다.

 

 

최대가능도추정량은 로그가능도함수에 대해 미분하여 0을 만족하는 hat(θ)이다.

위에서 로그가능도 함수를 모수인 p에 대해 미분하여 0으로 놓으면 다음과 같다.

$$ \frac{d}{dp}logL(p)=\frac{\sum_{i=1}^{n}x_{i}}{p} - \frac{n-\sum_{i=1}^{n}x_{i}}{1-p}=0 $$

이를 풀면

$$ \frac{(1-p)\sum_{i=1}^{n}x_{i}-p(n-\sum_{i=1}^{n}x_{i})}{p(1-p)}=\frac{\sum_{i=1}^{n}x_{i}-np}{p(1-p)}= 0 $$

가 되고, 이를 만족하기 위해서는

$$ \sum_{i=1}^{n}x_{i}=np $$ 

이므로, 따라서 최대가능도추정량은

$$ \widehat{p}= \frac{1}{n} \sum_{i=1}^{n}x_{i} $$

 

 

한 가지 더, 로그가능도함수를 두 번 미분하면 0보다 작은 값이 되므로 hat(p)에서 가능도함수의 최댓값을 얻을 수 있다.

 

 

반응형
반응형

통계 분석의 핵심은 무엇일까?

 

✅통계 분석의 목적은 여러 가지가 있지만 가장 중요한 것 중에 하나는 관측된 표본을 통해 모수를 추정하는 것이라 할 수 있다.

 

📋대선이 가까워지고 있는 요즘 (이 글은 대선 전에 작성했으나 지금 올림ㅋㅋ), 지지율 여론조사, 지지하는 정당 여론조사 뉴스가 굉장히 많이 올라온다. 뉴스들을 살펴보면 대략 표본은 1,000여 명 정도가 응답을 하고 여론조사 방식은 면접조사, ARS 등이 있다. 

 

그런데, 여기서 드는 의문..

 

1,000 명 정도 되는 표본의 대답이 전체 국민들을 대변하는 여론이라고 할 수 있을까?

(가끔 표본 수가 고작 1,000 명 밖에 안되기 때문에 자기 마음에 들지 않는 여론조사 결과가 나오면 여론 조사가 잘못되었다고 판단하는 사람들도 많다. 생각보다 매우 매우 많다.)

 

표본 수가 2,000 명인 여론조사와 표본 수가 20,000 명인 여론조사 중 어떤 조사가 더 정확할까?

 ⇨ 이는 여론 조사 설계에 따라 달라진다.

대략적으로 표본의 수가 1,000 ~ 2,000 정도면 대체적으로 여론조사 결과가 믿을만하다고 알려져 있다. 단, 표본이 전체 국민을 대변할 수 있을 정도로 표본 설계가 촘촘히 되어야 하며, 적절한 조사 방법을 이용해야 한다. 또한 편향이 생기지 않도록 설문지를 비롯해 여러 가지를 신경써야 한다.

만약 표본조사에서 33.5%가 야당 후보를 지지한다고 하면 모수 역시 대략 그 정도라고 추정할 수 있다.

 

 

 

✅모집단 전체를 조사하려면 비용과 시간이 너무 많이 소요되므로 비슷한 성능이라면 모집단을 대표하는 표본을 관측해 모수를 추정하는 방법이 널리 사용된다.

 

이렇게 미지의 모수값들은 표본을 이용해 추정하는데 그 추정법 중에 하나는 최대가능도추정법 Maximum Likelihood Estimation 이다.

 

"모수적 추정 방법은 반응변수에 대해 특정 확률분포를 가정한다."

 

가능도 검정을 할 때 많이 마주치는 문장인데, 참 이해하기 어려운 문장이다.

 

 

❗확률 분포는 여러 가지 종류가 있다. 

 ⇨ 대표적인 확률 분포로는 정규분포, 카이제곱분포, 포아송분포, 이항분포 등이 있다.

 

 

📋예를 들어 A공장에서 생산된 마스크의 불량률을 구해보고자 한다. 

 ⇨ A공장 생산 마스크의 불량률을 구하기 위해서 전 제품을 전수조사를 할 수는 없다.

따라서 생산된 제품 중 "몇 개를 뽑아서"(=표본추출) "불량인지 아닌지"(=반응변수)를 살펴보아야 한다.

이 경우 반응변수는 ①불량 ②정상 이 두 가지의 카테고리이고 여러 번 반복하여 확인하므로 "이항분포"라는 확률분포를 가정한다.

여기에서 추정하고자 하는 모수"불량률(𝛑)"이다. 

 

 

❓우리는 불량률을 모른다.

 ⇨ 10개의 마스크를 랜덤으로 골랐다고 하자.

시행횟수가 n이고, 불량품의 개수를 x라고 한다면.. 반응변수가 이항분포를 따르므로

 

모수인 불량률을 𝛑 라고 할 때,

확률분포는 다음과 같다. 

$$ _{n}\textrm{C}_{x} \pi^{x}(1-\pi)^{n-x} $$

 

📉 만약 표본 10개의 마스크 중 불량품의 개수가 0이라면 그 확률은 다음이 된다.

$$ P(X=0)=(1-\pi)^{10} $$ 

 

따라서 불량품의 개수가 0일 확률은 0부터 1의 값을 갖는 미지의 모수 𝛑값에 의해 달라진다.

 

이렇게 미지의 모수의 함수로 표현 된 표본자료의 확률가능도함수 Likelihood function이라고 한다. 

 

위 예제를 이와 같이 표현하면..

10번의 시행에서 X(불량품)=0 인 불량품에 대한 이항가능도함수는 0과 1 사이의 𝛑 에 대하여 $$ l(\pi)=(1-\pi)^{10} $$ 로 정의할 수 있다.

 

만약 

모수가 0이라면 (불량률이 0 이라면) $$l(0)=(1-0)^{10}=1$$

불량률이 0.2라면 $$l(0.2)=(1-0.2)^{10}=0.107$$ 

불량률이 0.4라면 $$ l(0.4)=(1-0.4)^{10}=0.006 $$

④ 불량률이 0.6라면 $$ l(0.6)=(1-0.6)^{10}=0.0001 $$

 

이를 R을 이용하여 그림으로 나타내면 다음과 같다.

 

 

만약 생산된 마스크 중 10개를 랜덤 선택하였을 때 불량인 마스크의 개수가 4개라면.. 

(여전히 불량률은 몰라서 𝛑로 둠)

$$ _{n}\textrm{C}_{x}(\pi)^{x}(1-\pi)^{n-x}=_{10}\textrm{C}_{4}(\pi)^{4}(1-\pi)^{6} $$

$$ l(\pi)=210( \pi )^{4}(1-\pi)^{6} $$

 

만약 

① 모수가 0이라면 (불량률이 0 이라면) $$l (0)=210(0)^{4}(1)^{6}=0 $$

② 불량률이 0.2라면 $$ l(0.2)=210(0.2)^{4}(1-0.2)^{6}=0.088 $$ 

③ 불량률이 0.4라면 $$ l(0.4)=210(0.4)^{4}(1-0.4)^{6}=0.25 $$ 

④ 불량률이 0.5라면 $$ l(0.5)=210(0.5)^{4}(1-0.5)^{6}=0.205 $$ 

⑤ 불량률이 0.6라면 $$ l(0.6)=210(0.6)^{4}(1-0.6)^{6}=0.11 $$ 

 

이를 R을 이용하여 그림으로 나타내면 다음과 같다.

모수의 Maximum Likelihood Estimator 최대가능도추정량"가능도함수를 최대로 만드는 모수값"으로 정의한다.

즉, 그 모수값에서 가능도함수가 최댓값을 갖는다.

(역시 이해하기 어려운 문장이다..)

 

 

다시 앞의 예로 돌아가보면..

$$ l(\pi)=(1-\pi)^{10} $$

위 가능도 함수는 X=0, 생산된 마스크 중 10개를 랜덤 선택하였을 때 불량인 마스크의 개수가 0개였을 때의 가능도함수였다. 그리고 이를 그래프로 나타낸 것은 다음과 같다.

위 그래프에서 최댓값을 갖는 모수값은 0.0이고, 최대가능도추정량은 0.0이 되는 것이다.

따라서 10 개의 표본 마스크 중에서 0개의 불량품이 있었다면 불량률 P(or파이)가 0.0일 때에 관측될 가능성이 높다는 의미이다.

 

 

두 번째 예제를 다시 살펴보면..

$$ l(\pi)=210( \pi )^{4}(1-\pi)^{6} $$

위 가능도 함수는 X=4, 생산된 마스크 중 10개를 랜덤 선택하였을 때 불량인 마스크의 개수가 4개였을 때의 가능도함수다. 그리고 이를 그래프로 나타낸 것은 다음과 같다.

위 그래프에서 가능도함수가 최댓값을 갖는 모수는 0.4이고, 따라서 10개의 마스크를 랜덤으로 뽑았을 때 불량품이 4개 발견되었다면 불량률이 0.4일 때 발견될 가능성이 높다는 의미이다.

 

n번 시행 중에서 x번 성공한 이항분포의 결과에서 파이의 최대가능도추정량은 

$$ \hat{\pi}=\frac{x}{n} $$

이는 n번 시행했을 때의 표본비율이다.

 
최대가능도(ML) 추정량은 실제 표본자료를 관측하기 전에는 그 값을 알 수 없다.
 
 
따라서 앞으로 이항모수에 대한 통계적 추론을 위해서 ML 추정량을 사용할 수 있다.
 
다음 글에서는 이항모수에 대한 유의성 검정에 대해 살펴보도록 하겠다.
 

 

 

반응형

+ Recent posts