반응형

동전 던지기 실험

Binomial distribution

이항분포에 앞서 베르누이분포가 있다.
모든 가능한 결과가 두 가지인 실험(표본공간이 {불량품, 양호품},{찬성, 반대} 등)을 베르누이 시행(Bernoulli trial)이라 한다.
 

성공확률을 p라고 할 때, '성공'이면 1, '실패'면 0으로 대응시키는 확률변수를 베르누이 확률변수라 한다. 베르누이 확률변수 X의 확률분포는 다음과 같이 정의할 수 있다.

 

$$ P(X=x) = p^{x}(1-p)^{1-x}, x=0,1 $$
 

따라서, X=0인 경우에는 P(X=0) = (1-p)이고, X=1인 경우에는 P(X=1) = p가 된다.

 

베르누이분포의 평균은 E(X)=p, Var(X)=p(1-p) 이다.

 
 

이처럼 동일한 성공확률을 가진 베르누이 시행독립적으로 반복하여 시행할 때,

'X=성공횟수'의 분포를 이항분포(binomial distribution)이라 한다.
 

성공확률이 p인 베르누이 시행을 n번 독립적으로 반복 시행할 때, '성공횟수(=X)'가 x일 확률은 다음과 같이 표시할 수 있다.

$$ P(X=x) = (\frac{n}{x})p^{x}(1-p)^{n-x}, x=0,1,2, ..., n $$
 

이항분포의 평균은 E(X)=np, 분산은 Var(X)=np(1-p) 이다.

 

증명은 https://proofwiki.org/wiki/Variance_of_Binomial_Distribution 참고하면 된다.

 

여기에서 n, p를 이항분포의 모수(parameter)라 한다.

 

만약 n=1이라면, 이항분포 B(n, p)는 '1(성공)'의 확률이 p인 베르누이분포이다.

 

참고로 모수는 모집단의 특성값으로, 평균, 분산, 성공확률 등을 예시로 들 수 있다.

 

반응형
반응형

 Regression model을 만들다 보면, 독립변수로 명목형 변수를 사용할 때가 많다. 지역이나 성별, biomaker유/무 등이 대표적으로 많이 사용되는 명목형 변수로, 특히 medical 저널에서는 성별을 covariate으로 취급하여 성별에 따른 종속변수의 차이를 보고자 할 때가 많다.

 

명목형 변수들은 Dummy Variable로 바꾸어서 regression model을 만드는데, one hot 인코딩 방식으로 더미 변수들을 만든다.

예를 들면, 

male=0, female=1

Biomarker유=1, Biomarker무=0

이런식으로 만든다.

이와 같은 binary 데이터들은 더미 변수로 만드는 것도 쉽고 큰 문제가 되지 않는다.

 

one-hot encoding의 이유는, 0과 1 대신 빨간색, 녹색, 파란색을 1,2,3 으로 코딩해버리면, 적합한 모델은 숫자가 더 큰 3을 빨간색보다 더 중요한 인자로 생각하게 되기 때문이다. 학력처럼 순서형이면 각 숫자에 의미가 있지만 여러 컬러처럼 단순 명목형일 때에는 one-hot 인코딩을 해야한다. 

(단, 컬러가 연함 - 진함과 같이 순서형이라면 굳이 one-hot 인코딩을 안해도 된다.)

 

one-hot encoding의 예시는 아래 세 가지 카테고리로 보면 더 명확하게 이해가 된다.

(image출처: https://towardsdatascience.com/encoding-categorical-variables-one-hot-vs-dummy-encoding-6d5b9c46e2db)

 

그럼 binary 말고 여러 카테고리가 있는 변수의 경우는 어떤 식으로 더미 변수를 만들까?

Regression 모델을 만들 때에는 k개의 카테고리가 있다면, k-1개의 더미변수를 생성하게 된다. 위 그림에서 Blue일 때, d1, d2, d3 모두 0으로 코딩해도 Red, Green과 차이가 있으므로, d1과 d2만 만들어도 무방하다는 의미이다. 즉, d1과 d2가 0일 때, Blue가 되는 것이다.

이것도 예를 들어 보면 쉽게 이해가 되는데,

명목형 변수 중에 지역이나 부서 같은 여러 카테고리가 있는 변수를 생각해보자.

IT부서, 회계부서, 유통부서, 영업부서, AS부서, 기획부서 이렇게 6개의 부서가 있다고 하자.

그럼 총 6개의 카테고리를 다음과 같이 one-hot encoding 할 수 있다.

 
그런데 앞서 언급했듯이 카테고리가 6개라면, 더미 변수는 5개만 있어도 상관없다. 맨 마지막 기획부서를 전부 0으로 해도 무방하기 때문에 모델 적합의 편의성을 위해 맨 마지막 X_기획을 0으로 코딩하면 다음과 같다.
 
이는 또 다음과 같이 만들 수 있다.
 

 

 
그럼 굳이 왜 이와 같이 인코딩을 해주는 것일까?
'그냥 카테고리마다 1로 해주면 되지 않을까?' 라는 생각이 드는데, 굳이 이와 같이 코딩을 해주는 이유는 multicollinearity 때문이다. 다중공선성은 독립변수 간의 상관계수가 높을 때 발생하는데, 독립변수 A와 독립변수 B의 상관성이 높다면 A를 통해서 B도 추측이 가능하기 때문에 regression 모델의 회귀계수 해석에 어려움이 생긴다.
 

 

 

 

 



 

반응형
반응형

 

 

Distribution 별 수리 통계학을 정리의 첫 번째는 Bernoulli distribution 이다.

 

출처 : wikipedia

 

베르누이 분포는 동전의 앞, 뒤처럼 오직 두 가지 범주만 가진 이산형 확률분포이다.

 

 

예를 들어, 시험을 봤을 때 60점 이상이면 합격, 미만이면 불합격이라 하자.

- 60점 이상 = 합격 ⇨ 이를 1이라 하고, 합격할 확률을 P(X=1) 로 표기할 수 있다.

- 60점 미만 = 불합격 ⇨ 이를 0이라 하고, 불합격할 확률을 P(X=0) 로 표기할 수 있다.

 

 

❗베르누이 분포의 확률질량함수 𝒇(𝒙)는 다음과 같다.

$$ f(x)=P(X=x)=p^{x}(1-p)^{1-x}, x=0,1 $$

 

 

❗베르누이 분포를 따르는 확률변수의 기댓값 E(X)=p, 분산 Var(X)=p(1-p) 이다.

 

 

❗베르누이 분포의 적률생성함수는 다음과 같다.

$$ M(t)=E(e^{tX})=(1-p)+pe^{t} $$

 

 

위 적률생성함수를 증명해보자.

베르누이분포는 이산형 확률분포이므로, 베르누이분포를 따르는 확률변수 X의 적률생성함수는 다음과 같이 정의된다.

$$ M_{X}(t)=E(e^{tX})=\sum_{x=0}^{\infty}e^{tx}f(x)=\sum_{x=0}^{\infty}e^{tx}p^{x}(1-p)^{1-x} $$

𝒙는 오로지 0과 1이므로, 이를 위에 대입하면,

$$ M_{X}(t)=\sum_{x=0}^{\infty}e^{tx}p^{x}(1-p)^{1-x}=e^{0}p^{0}(1-p)^{1} + e^{t}p^{1}(1-p)^{0}=(1-p)+pe^{t} $$

따라서 베르누이분포의 적률생성함수는 다음과 같다.

$$ M_{X}(t)=(1-p)+pe^{t} $$

 

 

✏이번에는 베르누이분포의 가능도함수, 로그가능도함수를 살펴본 후 최대가능도추정량을 구해보도록 하겠다.

❗먼저 가능도함수를 구해보자.

$$ L(\theta)=\prod_{i=1}^{n}f(x_{i}|\theta)=\prod_{i=1}^{n}p^{x_{i}}(1-p)^{1-x_{i}}=p^{\sum_{i=1}^{n}x_{i}}(1-p)^{n-\sum_{i=1}^{n}x_{i}} $$

❗이 가능도함수에 로그를 취한 함수를 로그가능도함수라 하는데, 이를 구해보자.

가능도함수에 로그를 취하면 다음과 같고,

$$ logL(\theta)=log(p^{\sum_{i=1}^{n}x_{i}}(1-p)^{n-\sum_{i=1}^{n}x_{i}}) $$

이는 다음과 같이 풀이할 수 있다.

$$ logL(\theta)=\sum_{i=1}^{n}x_{i} logp + (n-\sum_{i=1}^{n}x_{i}) log(1-p) $$

 

 

가능도함수 L(θ|𝑥)는 확률표본에서 얻을 수 있는 모수의 모든 정보를 가지고 있다.

따라서 이를 바탕으로 모수에 대한 가능성이 가장 높은 통계량을 찾는 것을 고려할 수 있다.

모수 θ에 대해 가능도함수 L(θ|𝑥)를 최대로 하는 통계량을 최대가능도추정량이라 한다.

 

 

최대가능도추정량은 로그가능도함수에 대해 미분하여 0을 만족하는 hat(θ)이다.

위에서 로그가능도 함수를 모수인 p에 대해 미분하여 0으로 놓으면 다음과 같다.

$$ \frac{d}{dp}logL(p)=\frac{\sum_{i=1}^{n}x_{i}}{p} - \frac{n-\sum_{i=1}^{n}x_{i}}{1-p}=0 $$

이를 풀면

$$ \frac{(1-p)\sum_{i=1}^{n}x_{i}-p(n-\sum_{i=1}^{n}x_{i})}{p(1-p)}=\frac{\sum_{i=1}^{n}x_{i}-np}{p(1-p)}= 0 $$

가 되고, 이를 만족하기 위해서는

$$ \sum_{i=1}^{n}x_{i}=np $$ 

이므로, 따라서 최대가능도추정량은

$$ \widehat{p}= \frac{1}{n} \sum_{i=1}^{n}x_{i} $$

 

 

한 가지 더, 로그가능도함수를 두 번 미분하면 0보다 작은 값이 되므로 hat(p)에서 가능도함수의 최댓값을 얻을 수 있다.

 

 

반응형
반응형

 의학연구에서 진단력은 매우매우 중요하다.

당장 코로나 진단키트를 구매할 때에도 실제 환자가 코로나 바이러스에 감염이 되었을 때,

키트가 정말 양성으로 진단하는 확률이 높은지를 따지게 된다.

 

특히 코로나 바이러스의 경우에는 전파력이 강하고, 진단키트 결과에 따라 격리여부가 결정되기 때문에 진단결과의 중요성은 매우 크다. (돈이 몇 백 억씩 왔다갔다 할 것이다.)

 

 

✅ 우리가 코로나 바이러스 진단키트를 사용할 때 따져야 할 점은 두 가지이다.

✔️ 1. 환자가 감염자일 때, 진단 검사 결과도 양성으로 나오는지?

   (≈ 환자가 감염자가 아닐 때, 진단 검사 결과도 음성으로 나오는지)

✔️ 2. 검사 결과 양성일 때, 실제로 환자가 감염자인지?

   (≈ 진단 결과가 음성일 때, 실제로 환자가 비감염자인지)

 

 

위 두 문장을 얼핏 보면 '그게 그거 아냐?' 라는 생각을 할 수도 있지만..

수학적으로는 엄청난 차이를 갖는다. 

배경지식 없이 본다면 뭔가 1번 확률(환자가 감염자일 때, 검사 결과도 양성)이 높다면,

2번 확률(검사 결과가 양성일 때, 실제로 환자가 감염자) 역시 높게 나올 것 같다.

 

그러나.. 유병률 (prevalence of disease)이 매우 낮다면 1번 확률이 높게 나오더라도 2번 확률은 매우 낮게 나올 수 있다. 왜 그런지 천천히 살펴보도록 하자.

 

 

 앞선 포스트에서 민감도와 특이도를 설명했었는데,

유병률이 낮으면 민감도가 높더라도 양성예측도가 낮을 수 있음을 이해하기 위해서는

이를 먼저 짚고 갈 필요가 있다.

 

 흔히 진단 검사의 정확도를 평가할 때, 통계학에서 사용하는 용어인 민감도, 특이도, 양성예측도, 음성예측도로 위 케이스들을 정리해보자. 

 

 

민감도, 특이도, 양성예측도, 음성예측도의 정의를 다시 한 번 살펴보면,

 

민감도 Sensitivity : 실제 양성일 때, 양성으로 예측할 확률

특이도 Specificity : 실제 음성일 때, 음성으로 예측할 확률

양성예측도 Positive Predictive Value : 검사 결과 양성일 때, 실제 양성일 확률

음성예측도 Negative Predictive Value : 검사 결과 음성일 때, 실제 음성일 확률

 

 

위 정의를 통해 아래 케이스를 적용해보면,

✔️ 1. 환자가 감염자일 때, 진단 검사 결과도 양성으로 나오는지? ⇨ 민감도

 ✔️ 1-1. 환자가 감염자가 아닐 때, 진단 검사 결과도 음성으로 나오는지 ⇨ 특이도

✔️ 2. 진단 검사 결과 양성일 때, 실제로 환자가 감염자인지? ⇨ 양성예측도

 ✔️ 2-1. 진단 검사 결과 음성일 때, 실제로 환자가 비감염자인지 ⇨ 음성예측도

 

 

📖 진단 검사의 정확도를 나타내는 위 네 가지를 아래 표를 통해서 살펴보자.

  Diseased (질병) Non-diseased (정상)
Test A Test A
Pos + Neg - Pos + Neg -
Test B Pos + a c e g
Neg - b d f h

 

Test A와 Test B의 정확예측도를 구하는 방법은 같으므로,

여기에서는 Test A에 해당하는 정확예측도만을 구해보도록 한다.

 

민감도는 '실제 감염자'라는 조건이 먼저 주어져야 하므로,

위 표에서 왼 쪽에 위치한 Diseased 표 보면 된다.

조건은 '실제 감염자'이므로 분모가 실제 감염자인 (a+b+c+d)가 될 것이다.

그 중에서도 진단검사 결과 양성인 사람들은 (a+b)이므로, Test A의 민감도는 다음과 같다.

Sensitivity of Test A : (a+b) / (a+b+c+d)

 

특이도를 구하는 방식은 민감도를 구하는 방법과 비슷하다.

감염 ⇨ 비감염, 양성 ⇨ 음성으로만 바꿔주면 된다.

여기에서 조건은 '실제 비감염자'이므로 오른쪽에 위치한 Non-Diseased 표만 보면 되고,

따라서 분모는 (e+f+g+h)이다.

이 중에서도 진단 검사 결과 음성인 사람들은 (g+h)이므로, Test A의 특이도는 다음과 같다.

Specificity of Test A : (g+h) / (e+f+g+h)

 

양성예측도조건(=분모)은 '진단 검사 결과가 양성'이므로 (a+b+e+f)가 된다.

양성예측도는 이 조건 중에서도 '실제로 감염자'인 사람들이므로 분자는 (a+b)이다.

따라서 Test A의 양성예측도는 다음과 같다.

Positive Predictive Value of Test A : (a+b) / (a+b+e+f)

 

음성예측도조건은 '진단 검사 결과가 음성'이므로 분모는 (c+d+g+f)이다.

음성예측도는 이 조건 중에서도 '실제로 비감염'이므로 분자는 (g+f)가 된다.

따라서 Test A의 음성예측도는 다음과 같다.

Negative Predictive Value of Test A : (g+f) / (c+d+g+f)

 

 

 

❗📓 위 개념을 파악했다면 앞서 언급한 민감도와 양성예측도의 관계에 대해 다시 살펴보도록 하자.

대충 생각하면 민감도가 높으면 양성예측도도 높을 것 같은데, 이미 언급했듯이 유병률(prevalence of disease)에 따라 민감도가 높아도 양성예측도는 낮게 나올 수 있다고 하였다.

이것을 그냥 개념적으로만 접근하면 잘 이해가 안되니 예시를 통해 살펴보도록 하겠다.

 

 

📌독감을 진단하는 두 개의 테스트 A, B 키트를 통해 독감 진단 검사를 실시하였고 그 결과는 다음 표와 같다.

    Diseased Non-Diseased
    Test A Test A
    Pos + Neg - Pos + Neg -
Test B Pos + 5 1 15 25
Neg - 3 1 30 170

 

A 키트와 B 키트 중 어떤 진단 키트가 더 나은지 통계적으로 결론을 내리기 전에,

Test A의 민감도와 양성예측도 보고를 위해 이 두 값들을 먼저 구하고자 한다.

 

Test A의 민감도는 위 정의에 따라 (5+3) / (5+3+1+1) = 80% 이다.

이는 실제 감염자가 100명일 때, 이 감염자들에 A키트를 적용하면 이 중 80명에 대해서는 양성이라는 결과를 얻는다는 것을 의미한다.

 

한편 A 키트의 양성예측도는 (5+3) / (5+3+15+30) = 15% 이다.

이는 진단 검사 결과 양성인 사람이 100명 있다면, 이 중 실제 감염자는 15명이라는 의미이다. 

 

민감도 80% 와 양성예측도 15% 는 엄청난 차이를 갖는다.

 

왜 이런 차이가 나는 것일까? 이는 앞서 말한 유병률 때문인데, 

 

🔍 위 케이스에서 유병률은 (5+3+1+1) / (5+3+1+1+15+25+30+150) = 4% 이다.

이는 100명 중 4명에게서 해당 질병이 발생하는 확률로 결코 높다고 할 수 없다.

따라서 4%의 유병률을 보인다면, Diseased 군 보다는 Non-Diseased군에 더 많은 인원이 분포할 것이다.

 

민감도Diseased 군 내에서만 살펴보기 때문에 유병률을 살필 필요 없이

Diseased 군 내에서의 양성결과만 살펴보면 되지만,

양성예측도Diseased군의 양성률과 더불어 Non-Diseased 군에서의 양성률도 살펴야하고,

유병률이 낮다면 Non-Diseased 군이 더 많은 숫자를 가질 것이므로 양성예측도가 낮게 나올 수 밖에 없는 것이다.

 

 

 📒원래는 두 진단 검사 A와 B 중 어떤 검사가 나은지 통계적으로 검정하는 방법을 설명하려 했는데 이를 위해서 위 개념들이 필요했기에 설명이 매우 길어졌다. 😅

 위 개념들을 천천히 익혀야 통계적 검정 방법을 이해할 수 있으므로 이번에는 여기서 줄이고, 다음 번에 두 진단 검사를 통계적으로 비교하는 방법을 설명하도록 하겠다.

반응형
반응형

 회귀 모형 (Regression model) 을 적합하고 모형 진단을 할 때 여러 검정이 필요한데, 그 중에서도 먼저 적합도 검정에 대해서 살펴보고자 한다.


관심 있는 모형을 이라 하고, 이 모형이 잘 적합되었는지 검정을 해보자.


✅적합도 검정 (Goodness of fit test)이란? 

-포화모형에는 포함되어 있지만 간단한 모형에는 포함되지 않는 모든 모수가 0인지 검정하는 것


✔ 귀무가설: 간단한 모형 (현재 고려하고 있는 모형 = M)

✔ 대립가설: 포화모형 (가장 복잡한 모형)


유의확률이 클수록 귀무가설을 기각하지 못하기 때문에 간단한 모형을 선택하게 된다. 즉, 유의확률이 크다면 간단한 모형이 복잡모형과의 설명력에서 차이가 없으므로 간단한 모형을 사용하면 된다.


범주형 변수 4개(binary)가 있다면 모수가 4개.



적합도와 이탈도

GLM에서 적합도 검정을 위한 가능도비 통계량

1. 이탈도(Deviance) = -2[Lm-Ls] 

    Ls:포화모형의 이탈도, Lm: 간단모델의 이탈도

값이 클수록 포화모형과 비교했을 때 축소모형의 설명력이 좋지 못하다는 해석을 내릴 수 있음. P-value가 작을수록 적합결여에 대한 강한 증거가 된다.


2. 대표본의 경우 근사적으로 카이제곱 분포를 따름.


예측변수가 모두 범주형 변수인 경우, 전체 Data는 분할표의 도수로 요약할 수 있다.

잔차를 이용해 적합도를 살펴볼 수 있다.

 

LM = 모형 에서 얻은 로그 가능도함수의 최댓값

LS = 가능한 모형 중에서 가장 복잡한 모형에서의 로그 가능도함수의 최댓값


가장 복잡한 모형을 포화모형 saturated model 이라고 하고, 이 모형은 각 관측값에 대해 모수를 가지므로 완벽하게 자료를 적합시킨다.


포화모형은 모수들을 더 많이 포함하기 때문에 포화모형 하에서 구한 로그가능도함수의 최댓값 LS는 더 단순한 모형인 에서 구한 로그가능도함수의 최댓값 LM 보다 큰 값을 갖는다.


GLM의 이탈도 통계량은 다음과 같이 정의할 수 있다.

$$ 2[L_{S}-L_{M}]\sim \chi^{2},\:\;  L_{S} > L_{M} $$


이탈도 통계량의 귀무가설

- 포화모형의 모수들 중, 모형 M에 포함되지 않은 모수들이 모두 0이다.

 = 모형 이 포화모형보다 더 괜찮은 모형이다.

 = 모형 이 잘 적합되었다.

따라서 이 경우에는 P-value 값이 높을수록 관심 있는 모형 M 의 적합성이 좋다.

반응형
반응형

 GLM 적합 후에 여러 가지를 검정해야 하는데, 이번에는 설명변수에 대한 검정을 살펴보도록 하겠다.


표본이 큰 경우에 GLM의 ML 추정량들은 근사적으로 정규분포를 따른다.


설명변수가 한 개인 GLM을 생각해보자.


(1) 왈드검정 Wald

귀무가설 β=0 을 검정하기 위한 왈드 검정통계량은 다음과 같다.

$$ z=\hat{\beta}/SE $$

귀무가설 하에서 z는 근사적으로 표준정규분포를 따른다.

$$ z^{2} \sim \chi^{2} (df=1) $$

이항모수 𝛑에 대하여 SE는 다음과 같다.

$$ SE=\sqrt{\hat{\pi}(1-\hat{\pi})/n} $$



(2) 가능도비 검정 Likelihood ratio

l 0 = 귀무가설 하에서의 가능도함수의 최댓값

1 = 완전모형 하에서의 가능도함수의 최댓값

$$ 2log(l_{1}/l_{0})=2[log(l_{1})-log(l_{0})]=2(L_{1}-L_{0}) $$

L0 = 귀무가설 하에서의 로그 가능도함수의 최댓값

L1 = 완전모형 하에서의 로그 가능도 함수의 최댓값

(로그변환과 두 배를 하면 대략적으로 카이제곱 표본분포를 따르게 됨)

귀무가설 β=0 하에서 2(L1-L0) 이 검정통계량은 근사적으로 자유도가 1인 카이제곱분포를 따른다.

가능도비 검정은 일반적으로 왈드검정보다 statistical power가 더 높다고 평가 받는다.



(3) 스코어 검정 score test

왈드 검정과 달리 추정된 표준오차값이 아닌, 귀무가설이 참일 때 타당한 표준오차값(SE0)을 이용한다.

왈드 검정에서 SE는 다음과 같다.

$$ SE=\sqrt{\hat{\pi}(1-\hat{\pi})/n} $$

z검정에서 사용하는 표준오차 즉, 스코어 검정에서 SE0는 다음과 같다.

$$ SE_{0}=\sqrt{\pi_{0}(1-\pi_{0})/n} $$


반응형
반응형

 모든 GLM은 세 개의 성분이 있다.


(1) 랜덤성분 random component

 - 반응변수 Y를 정의하며, 반응변수 Y에 대한 확률분포를 가정한다.


(2) 선형예측식 linear predictor

- 설명변수(=독립변수)들을 명시함. 변수들이 선형식의 우변에 다음과 같은 형태로, 예측변수들의 선형식으로 들어가는 것을 의미한다.

$$ \alpha+\beta_{1}x_{1}+\cdots +\beta_{n}x_{n} $$

모형에 대한 통계적 추론은 독립변수들의 관측값들을 고정된 값으로 간주한 조건부 추론을 하게 됨.


(3) 연결함수 link function

- Y에 대한 확률분포의 기댓값 E(Y)는 설명변수(=독립변수)들의 값에 따라 달라진다.

$$ g(\mu)=\alpha +\beta_{1}x_{1}+\cdots +\beta_{n}x_{n} $$

여기에서 연결함수는 "g" 로 랜덤성분과 설명변수들의 선형예측식을 연결하는 함수다.

✔ 연결함수의 가장 간단한 형태는

$$ g(\mu)=\mu $$

 이 연결함수는 평균자체를 모형화하므로 항등연결함수 identity link function 라고 한다.

$$ \mu=\alpha +\beta_{1}x_{1}+\cdots +\beta_{n}x_{n} $$

이 형태는 연속형(=양적) 반응변수에 대한 보통의 회귀모형 형태다. 일반적인 선형회귀(linear regression)이라 생각하면 된다.


❗다른 연결함수를 사용하면 µ설명변수의 비선형식으로 표현이 가능하다.

✔ 예를 들면 아래 식은 평균의 로그 변환된 값을 모형화한 것이다.

$$ g(\mu)=log(\mu) $$ 

로그함수는 양수에 대해서 정의된다.

로그 연결함수는 µ 가 도수를 나타내는 자료와 같이 양의 값을 가질 때 적절히 사용가능하다.

아래 식은 로그선형모형이라 부른다.

$$ log(\mu)=\alpha +\beta_{1}x_{1}+\cdots +\beta_{n}x_{n}$$


❗아래 연결함수는 오즈의 로그값을 모형화한다.

$$ g(\mu)=log(\frac{\mu}{1-\mu}) $$

이 연결함수는 로짓함수 Logit Link 라고 부른다. 이 연결함수는 µ 가 확률과 같이 0과 1사이에 있을 때 적절히 사용 가능하다.

로짓함수를 이용한 GLM을 로지스틱 회귀모형 logistic regression model 이라고 한다.

반응형
반응형

 앞선 글에서는 이항자료를 관측값으로 갖는 경우에 모형을 어떻게 적합할 것인가를 살펴보았다.  그럼 Counts 도수를 관측값으로 갖는 경우에는 어떻게 적합할까?


📋도수를 관측값으로 갖는 범주형 반응변수들은 예를 들어 ①디바이스 개수 ②실리콘 기판의 결함수 등이 있다.


도수자료를 가질 때 some GLM은 랜덤성분에 대해 포아송 분포 Poisson distribution을 가정한다.

❗포아송 확률은 다음 식과 같다.

$$ p(y)=\frac{e^{-\mu} \mu^{y}}{y!} , y=0,1,2, \cdots $$


포아송 분포를 따르는 데이터는 모수가 한 개다. 그 모수는 바로 μ

E(Y) Var(Y) = μ

포아송의 평균을 모형화할 때에는 로그변환된 평균을 사용하는 것이 일반적이다.


GLM에는 세 가지 성분이 있다고 했는데, 도수자료를 가지는 GLM에서의 세 가지 성분에 대해 살펴보자.

✔ 랜덤성분: 포아송 분포

✔ 자연모수: 로그 평균

✔ 연결함수: log(μ)

포아송 로그 선형모형의 함수 그림은 아래와 같다.


하나의 설명변수 x에 대하여 포아송 로그 선형모형은 다음과 같다.

$$ log\mu=\alpha+\beta x $$

따라서 위 모형에서 평균 μ를 계산하면 다음과 같다.

$$ \mu=exp(\alpha+\beta x)=e^{\alpha}e^{\beta x}=e^{\alpha}(e^{\beta})^{x} $$

위 모형의 의미는 x가 한 단위 증가하면 μ가 exp(β)배 만큼 커진다는 뜻이다.


반응형

+ Recent posts