[R] - 독립표본 평균검정 ( two-independent samples t test )

반응형

독립표본 평균검정 ( two-independent samples t test ) 

1. 두 개의 독립표본 데이터를 이용하여 각각 대응되는 두 개 의 모집단 평균이 서로 동일한지 검정 

2. 두 집단이 서로 차이가 없는지 검정 

 

R 프로그래밍

 

https://minyoungxi.tistory.com/68

 

[R] 통계데이터 분석 - 여러가지 평균검정법 : 일표본 평균검정 ( One-Sample t test ) , 독립표본 평균

일표본 평균검정 ( one-sample t test ) 하나의 표본 데이터를 이용하여 모집단의 평균이 특정 값과 같은지 검정하는 방법 표본집단이 특정 모집단과 일치하는지 혹은 그렇지 않은지 알고싶을 때 이

minyoungxi.tistory.com

 

지난 포스팅에서 사용한 MASS 라이브러리의 cats 데이터를 활용하여 실습을 진행하겠습니다. 

 

귀무가설 : 암컷과 수컷 고양이의 몸무게 차이는 0이다. 

대립가설 : 암컷과 수컷 고양이의 몸무게 차이는 0이 아니다. 

 

t.test() 함수를 활용하여 검정해봅시다. 

 

# formula = 검정하고자 하는 종속변수 ~ 집단을 나타내는 독립변수 
# 독립변수는 영향을 주는 변수 , 종속 변수는 영향을 받는 변수 
# 즉 위의 코드는 Sex에 따른 Bwt의 변화 

t.test(formula=Bwt ~ Sex, data=cats) 


# 출력값
> t.test(formula=Bwt ~ Sex, data=cats) 

	Welch Two Sample t-test

data:  Bwt by Sex
t = -8.7095, df = 136.84, p-value = 8.831e-15
alternative hypothesis: true difference in means between group F and group M is not equal to 0
95 percent confidence interval:
 -0.6631268 -0.4177242
sample estimates:
mean in group F mean in group M 
       2.359574        2.900000

암컷 고양이의 표본 평균 데이터는 2.3 수컷 고양이의 몸무게는 2.9 입니다. 

p-value가 8.831~로 매우 큽니다.

 

이는 암컷 고양이와 수컷 고양이의 평균의 차이가 0이라는 분포하에서 표본 관측된 데이터의 차이가 발생할 확률이 거의 0에 가깝다는 의미입니다.  -> 따라서 귀무가설을 기각하고 대립가설을 채택하죠.

 

또한 

95 percent confidence interval:  -0.6631268 -0.4177242 신뢰구간이 0을 포함하고 있지 않습니다. 다시말해 모집단에서 두 집단의 몸무게 차이가 0이 아니라는 의미입니다. 따라서 신뢰구간에서도 두 집단간의 몸무게 차이가 존재한다는 동일한 결론에 도달합니다. 

 

위의 코드 결과와 같은 결과입니다.

Bwt.f <- cats$Bwt[cats$Sex=="F"] # 암컷 고양이의 몸무게 
Bwt.m <- cats$Bwt[cats$Sex=="M"] # 수컷 고양이의 몸무게 

mean(Bwt.f)
mean(Bwt.m)

t.test(Bwt.f, Bwt.m)

 


집단간의 비율이 동일한지 ? 

예를 들어 폐질환자 대비 흡연자의 비율이 병원에 따라서 차이가 있는지 궁금할 수 있습니다. 

이 때의 대립가설은 '폐질환자 대비 흡연자의 비율이 병원에 따라 다르다' 이고

이에 대응되는 귀무가설은 '폐질환자 수 대비 흡연자의 비율은 병원마다 똑같다' 입니다. 

 

집단간의 비율이 동일한지 테스트 해봅시다.

 

가상의 환자데이터와 흡연자 데이터를 생성합니다. 

patients <- c(86, 93, 136, 82)
smokers <- c(83, 90, 129, 70)

흡연자를 환자의 수로 나누면 각 병원에서 폐질환자 대비 흡연자의 비율을 구할 수 있습니다. 

귀무가설은 이 4개의 비율이 모집단에서 모두 동일할 것임을 주장합니다. 

대립가설은 이 4개의 비율이 모집단에서 다를 것이다가 됩니다.

> smokers/patients 
[1] 0.9651163 0.9677419 0.9485294 0.8536585

 

prop.test() 함수를 통해 간단하게 검정통계값을 구할 수 있습니다. 

p-value는 0.05에 한참 미치지 못하므로 귀무가설을 기각하고 대립가설을 채택합니다. 

> prop.test(x=smokers, n=patients) # 사건 발생할 횟수 , 전체 

	4-sample test for equality of proportions without continuity correction

data:  smokers out of patients
X-squared = 12.6, df = 3, p-value = 0.005585
alternative hypothesis: two.sided
sample estimates:
   prop 1    prop 2    prop 3    prop 4 
0.9651163 0.9677419 0.9485294 0.8536585
반응형