회귀모형을 적합할 때 적합하고자 하는 모형의 반응변수가 Binary data라면 어떻게 모형을 만들어야 할까?
반응변수가 두 가지의 범주를 갖고 있는 경우가 참 많다.
예를 들면..
(예, 아니오) (성공, 실패) (양성, 음성)
이항반응변수를 Y라 표시하고, 성공을 1, 실패를 0이라 나타내면,
반응변수 Y의 분포는 성공에 대한 확률 P(Y=1)=π 와 실패에 대한 확률 P(Y=0)=(1-π)로 표현할 수 있다.
이 분포의 평균 E(Y)=π 이며, n개의 서로 독립적인 이항반응변수의 관측값으로부터 관측된 성공횟수는 n과 π를 모수로 갖는 이항분포를 따른다.
모수: n, π
이항반응변수를 갖는 값들을 회귀모델을 만드는 방법은 크게 두 가지이다.
1. 선형확률모형
먼저 이항반응변수를 갖는 값들을 보통선형모형을 이용해 항등연결함수를 사용해보도록 하겠다.
$$ P(Y=1)=\alpha+\beta_{1}x_{1}+\cdots +\beta_{p}x_{p} $$
이 모형은 성공확률이 설명변수에 따라 선형적으로 변하므로 Linear probability model 라고 부른다.
다른 변수가 고정되어 있을 때, x1이 한 단위 변한다면 모수 Beta1은 확률 P(Y=1)의 변화량을 의미한다.
한계점: 확률은 0과 1 사이의 값. 선형함수는 실수 전체에 걸쳐 값을 가질 수 있음.
2. 로지스틱 회귀모형
P(Y=1) 와 x의 관계는 비선형 형태이다. x의 변화량은 P(Y=1)가 0이나 1에 가까이 있을 때, 중앙일 때보다 영향을 덜 미치게 된다.
로지스틱 회귀함수 Logistic regression function은 다음과 같이 표현할 수 있다.
$$ P(Y=1) = \frac{exp(\alpha+\beta x)}{1+exp(\alpha+\beta x)} $$
모수 베타는 곡선이 증가하거나 감소하는 속도를 결정함.
만일 설명변수가 여러개라면 다음과 같이 표현 가능하다.
$$ log[\frac{P(Y=1)}{1-P(Y=1)}]=\alpha+\beta_{1}x_{1}+\cdots +\beta_{p}x_{p} $$
로지스틱 회귀모형은 GLM의 특별한 경우다.
랜덤성분은 이항분포
연결함수는 π=P(Y=1) 의 로짓변환인 log[π/(1-π)] = logit(π)
'STATISTICS' 카테고리의 다른 글
GLM 일반화선형모형의 성분 (1) | 2022.10.06 |
---|---|
도수에 대한 일반화선형모형 GLM Part. 2 (1) | 2022.10.05 |
McNemar Test (맥니마 검정법) - (2) 검정통계량 (0) | 2022.10.04 |
McNemar Test (맥니마 검정법) - (1) 이항형 대응쌍에 대한 종속비율들의 비교 (0) | 2022.10.04 |
통계 기초 : the meaning of power (통계 파워의 의미) + 알파 + 베타 (0) | 2022.10.04 |