독립표본 평균검정 ( two-independent samples t test )
1. 두 개의 독립표본 데이터를 이용하여 각각 대응되는 두 개 의 모집단 평균이 서로 동일한지 검정
2. 두 집단이 서로 차이가 없는지 검정
R 프로그래밍
https://minyoungxi.tistory.com/68
지난 포스팅에서 사용한 MASS 라이브러리의 cats 데이터를 활용하여 실습을 진행하겠습니다.
귀무가설 : 암컷과 수컷 고양이의 몸무게 차이는 0이다.
대립가설 : 암컷과 수컷 고양이의 몸무게 차이는 0이 아니다.
t.test() 함수를 활용하여 검정해봅시다.
# formula = 검정하고자 하는 종속변수 ~ 집단을 나타내는 독립변수
# 독립변수는 영향을 주는 변수 , 종속 변수는 영향을 받는 변수
# 즉 위의 코드는 Sex에 따른 Bwt의 변화
t.test(formula=Bwt ~ Sex, data=cats)
# 출력값
> t.test(formula=Bwt ~ Sex, data=cats)
Welch Two Sample t-test
data: Bwt by Sex
t = -8.7095, df = 136.84, p-value = 8.831e-15
alternative hypothesis: true difference in means between group F and group M is not equal to 0
95 percent confidence interval:
-0.6631268 -0.4177242
sample estimates:
mean in group F mean in group M
2.359574 2.900000
암컷 고양이의 표본 평균 데이터는 2.3 수컷 고양이의 몸무게는 2.9 입니다.
p-value가 8.831~로 매우 큽니다.
이는 암컷 고양이와 수컷 고양이의 평균의 차이가 0이라는 분포하에서 표본 관측된 데이터의 차이가 발생할 확률이 거의 0에 가깝다는 의미입니다. -> 따라서 귀무가설을 기각하고 대립가설을 채택하죠.
또한
95 percent confidence interval: -0.6631268 -0.4177242 신뢰구간이 0을 포함하고 있지 않습니다. 다시말해 모집단에서 두 집단의 몸무게 차이가 0이 아니라는 의미입니다. 따라서 신뢰구간에서도 두 집단간의 몸무게 차이가 존재한다는 동일한 결론에 도달합니다.
위의 코드 결과와 같은 결과입니다.
Bwt.f <- cats$Bwt[cats$Sex=="F"] # 암컷 고양이의 몸무게
Bwt.m <- cats$Bwt[cats$Sex=="M"] # 수컷 고양이의 몸무게
mean(Bwt.f)
mean(Bwt.m)
t.test(Bwt.f, Bwt.m)
집단간의 비율이 동일한지 ?
예를 들어 폐질환자 대비 흡연자의 비율이 병원에 따라서 차이가 있는지 궁금할 수 있습니다.
이 때의 대립가설은 '폐질환자 대비 흡연자의 비율이 병원에 따라 다르다' 이고
이에 대응되는 귀무가설은 '폐질환자 수 대비 흡연자의 비율은 병원마다 똑같다' 입니다.
집단간의 비율이 동일한지 테스트 해봅시다.
가상의 환자데이터와 흡연자 데이터를 생성합니다.
patients <- c(86, 93, 136, 82)
smokers <- c(83, 90, 129, 70)
흡연자를 환자의 수로 나누면 각 병원에서 폐질환자 대비 흡연자의 비율을 구할 수 있습니다.
귀무가설은 이 4개의 비율이 모집단에서 모두 동일할 것임을 주장합니다.
대립가설은 이 4개의 비율이 모집단에서 다를 것이다가 됩니다.
> smokers/patients
[1] 0.9651163 0.9677419 0.9485294 0.8536585
prop.test() 함수를 통해 간단하게 검정통계값을 구할 수 있습니다.
p-value는 0.05에 한참 미치지 못하므로 귀무가설을 기각하고 대립가설을 채택합니다.
> prop.test(x=smokers, n=patients) # 사건 발생할 횟수 , 전체
4-sample test for equality of proportions without continuity correction
data: smokers out of patients
X-squared = 12.6, df = 3, p-value = 0.005585
alternative hypothesis: two.sided
sample estimates:
prop 1 prop 2 prop 3 prop 4
0.9651163 0.9677419 0.9485294 0.8536585