반응형

 회귀모형을 적합할 때 적합하고자 하는 모형의 반응변수가 Binary data라면 어떻게 모형을 만들어야 할까?

 

반응변수가 두 가지의 범주를 갖고 있는 경우가 참 많다.

예를 들면..

(예, 아니오) (성공, 실패) (양성, 음성)

 

이항반응변수를 Y라 표시하고, 성공을 1, 실패를 0이라 나타내면,

반응변수 Y의 분포는 성공에 대한 확률 P(Y=1)=π 와 실패에 대한 확률 P(Y=0)=(1-π)로 표현할 수 있다.

 

이 분포의 평균 E(Y)=π 이며, n개의 서로 독립적인 이항반응변수의 관측값으로부터 관측된 성공횟수는 nπ를 모수로 갖는 이항분포를 따른다.

모수: n, π

 

이항반응변수를 갖는 값들을 회귀모델을 만드는 방법은 크게 두 가지이다.

 

1. 선형확률모형

먼저 이항반응변수를 갖는 값들을 보통선형모형을 이용해 항등연결함수를 사용해보도록 하겠다.

$$ P(Y=1)=\alpha+\beta_{1}x_{1}+\cdots +\beta_{p}x_{p} $$

이 모형은 성공확률이 설명변수에 따라 선형적으로 변하므로 Linear probability model 라고 부른다.

다른 변수가 고정되어 있을 때, x1이 한 단위 변한다면 모수 Beta1은 확률 P(Y=1)의 변화량을 의미한다.

한계점: 확률은 0과 1 사이의 값. 선형함수는 실수 전체에 걸쳐 값을 가질 수 있음. 

 

2. 로지스틱 회귀모형

P(Y=1) 와 x의 관계는 비선형 형태이다. x의 변화량은 P(Y=1)가 0이나 1에 가까이 있을 때, 중앙일 때보다 영향을 덜 미치게 된다. 

로지스틱 회귀함수 Logistic regression function은 다음과 같이 표현할 수 있다.

$$ P(Y=1) = \frac{exp(\alpha+\beta x)}{1+exp(\alpha+\beta x)} $$

모수 베타는 곡선이 증가하거나 감소하는 속도를 결정함.

 

만일 설명변수가 여러개라면 다음과 같이 표현 가능하다.

$$ log[\frac{P(Y=1)}{1-P(Y=1)}]=\alpha+\beta_{1}x_{1}+\cdots +\beta_{p}x_{p} $$

 

로지스틱 회귀모형은 GLM의 특별한 경우다.

랜덤성분은 이항분포

연결함수는 π=P(Y=1) 의 로짓변환인 log[π/(1-π)] = logit(π)

반응형

+ Recent posts