'통계검정' 태그의 글 목록

통계검정

Two-sample independent t-test (독립 이표본 검정을 위한 가정들에 대한 논쟁) 2022.10.09

Two-sample independent t-test (독립 이표본 검정을 위한 가정들에 대한 논쟁)

2022. 10. 9. 14:22

두 그룹의 모평균 비교를 위한 검정을 할 때 가장 많이 사용되는 방법 중 한 개인

"2-sample independent t-test"가 있다.

두 그룹 비교를 위해 가장 많이 사용되는 방법 중 한 검정법인데, 여러 까다로운(?) 가정들이 있다.

Two-sample independent t-test 통계검정법 중에서도,

모수적 검정법을 사용하려면 다음 가정들을 모두 만족해야 한다.

📌 Assumption 1

- 두 샘플 그룹은 서로 독립일 것

📌 Assumption 2

- 두 샘플 그룹의 평균이 모두 정규성을 만족할 것

- 모집단이 아님! "샘플 그룹의 평균"이 정규분포를 따라야 한다는 것 ⇨ 중심극한정리

📌 Assumption 3

- 두 샘플 그룹의 분산이 등분산일 때와, 이분산 일때를 구별해야 함.

❓2 sample independent t-test를 실시할 때, 위 가정을 어떻게 만족해야 하는지 예시를 통해 살펴보자.

📏 북미에 위치한 A 도시와 중앙아시아에 위치한 B 도시 주민들의 키 평균을 비교하고자 한다.

내 가설은 A 도시 주민과 B 도시 주민들의 키는 유의미하게 차이가 있다는 것이다.

⇨ 귀무가설과 대립가설은 다음과 같다.

- Null hypothesis (귀무가설=영가설) :

A 지역 주민의 키 평균 = B 지역 주민의 키 평균

- Alternative hypothesis (대립가설) :

A 지역 주민의 키 평균 ≠ B 지역 주민의 키 평균

단, 대립가설은 나의 가설이 어떠냐에 따라 (ex. A>B, B>A) 달라질 수 있다.

A 도시에는 100 만 명의 주민이 살고 있고, B 도시에는 50만 명의 주민이 살고 있다고 해보자.

✔️ A 도시 사람들의 키와 B 도시 사람들의 키는 독립이다. (Assumption1 만족)

위 가설을 검정하기 위해서 총 150 만 명에 해당하는 모든 주민의 키를 전수조사하는 것은 불가능에 가깝다.

따라서 우선 각 지역의 주민들을 랜덤으로 뽑아(=랜덤샘플링), 각 지역을 대표할 수 있는 표본을 구해야 할 것이다.

이를 위해 각 도시를 대표할 수 있는 주민 100명을 각각 뽑아 평균을 조사하였다.

원래 정석으로는 주민 100명(=sample size)을 여러 번(예를 들어 30번=number of samples) 추출을 해야한다.

이렇게 예를 들어 30번을 추출한다 가정하면, 총 30개의 표본평균이 나올 것이고, 이 표본 평균들이 정규분포를 따르게 되는 것이다. (=중심극한정리)

그러나 현실적인 문제로 이렇게 샘플링을 하는 것은 많은 경우 불가능하므로,

첫 번째 샘플링 그룹의 표본평균을 보고, 이를 사용하게 된다.

중심극한정리에 따라 표본의 평균은 정규분포를 따른다.

즉, A 도시 주민의 키의 분포는 다음과 같다.

$$ N(\mu_{1},\sigma^{2}) $$

한편 B 도시 주민의 키의 분포는 아래와 같다.

$$ N(\mu_{2},\sigma^{2}) $$

✔️ A 도시 사람들의 키와 B 도시 사람들의 키는 정규성을 만족한다. (Assumption2 만족)

보통은 A도시에서 뽑힌 샘플과 B도시에서 뽑힌 샘플을 각각 shapiro-wilks 검정을 통해 정규성을 만족하는지 살펴본다.

여기서 잠깐❗

통계학을 배울 때 매우 중요하다고 배우는 것이 있는데, 바로 "중심극한정리"이다. 모집단의 분포가 어떠하더라도, 표본 평균은 정규분포를 따른다는 것이다.

만약 모집단이 포아송 분포를 따르고, 랜덤샘플링으로 표본을 30개씩 뽑는다면,

이 표본의 평균의 분포는 정규분포를 따른다.

모집단의 개체 수가 10,000 개이고, 30개 씩 100번 랜덤샘플링을 하면,

100개의 표본 평균 분포은 정규분포를 보이게 된다.

따라서 원래는 랜덤샘플링을 여러 번 해야 정확하지만, 현실적으로는 불가능하기 때문에 한 번의 랜덤샘플링을 하고 이 표본의 평균이 모집단의 평균을 대표한다고 할 수 있다.

그런데..

❓❓ '샘플이 30개 이상이면 근사적으로 정규분포를 따르니까 정규성검정 안해도 된다고 했는데?'

t-test 검정에 있어 정규성 가정에 대해서는 말이 많다. 결론적으로는 샘플이 크면 정규성 가정을 무시하고 t-test를 해도 좋지만, 그 상세한 이유는 나중에 다루기로 한다.

✔️ 마지막으로 두 그룹의 등분산 검정을 실시하여 두 그룹의 분산이 비슷하다면 통계프로그램에서 등분산의 조건을 주어 t-test를 진행하면 된다.

만약 등분산 검정에서 두 그룹의 분산이 다르다면 welch 검정 (or Satterthwaite)를 사용하면 된다.

'STATISTICS' 카테고리의 다른 글

Effect size : 효과 크기와 유의확률 (p-value) (2) (0)	2022.12.25
Effect size : 효과 크기와 유의확률 (p-value) (1) (1)	2022.12.25
수리통계학 - 이산형 확률변수의 확률분포 (1)	2022.10.08
수리통계학 - 이항분포의 정규근사 (0)	2022.10.08
수리통계학 - 이항분포 (Bionomial distribution) (0)	2022.10.08

PREV 이전 1 NEXT 다음

BIOINFORMATICS WITH PARK-KLEIS

통계검정

Two-sample independent t-test (독립 이표본 검정을 위한 가정들에 대한 논쟁)

❓2 sample independent t-test를 실시할 때, 위 가정을 어떻게 만족해야 하는지 예시를 통해 살펴보자.

'STATISTICS' 카테고리의 다른 글

+ Recent posts

티스토리툴바