[R] - 평균 검정 - t검정 t test, t 값 ( t-value ) , t 분포 ( t distribution ) , 신뢰구간 ( confidence interval )

반응형

Abstract

t-검정 통계에서의 t값은 두 집단의 평균 사이에 통계적으로 유의미한 차이가 있는지를 판단하는 데 사용되는 값입니다.

 

t값이 크면 두 집단의 평균 사이에 큰 차이가 있다는 것을 의미하며, t값이 작으면 두 집단의 평균 사이에 큰 차이가 없다는 것을 의미합니다.

 

그러나 t값만으로는 두 집단의 평균 사이에 차이가 통계적으로 유의미한지를 결정할 수 없습니다. 이를 결정하기 위해서는 p값을 계산해야 합니다. p값은 t값과 자유도(샘플 크기에서 1을 뺀 값)를 사용하여 계산되며, p값이 특정 임계값(보통 0.05)보다 작으면 두 집단의 평균 사이에 통계적으로 유의미한 차이가 있다고 판단합니다.

 

 

평균검정

  • 평균에 대한 가설 검정을 의미
  • 선정한 표본이 특정 평균값을 갖는 모집단에 속하는지 ( 즉, 표본의 평균과 모집단의 평균이 동일한지 ) 또는 두 표본집단의 평균값 간에 차이가 존재하는지 ( 즉 두 표본집단이 동일한 모집단에 속하는지 ) 검정
  • 일표본 평균검정, 독립표본 평균검정, 대응표본 평균검정

t 검정

  • 평균에 대한 가설검정은 t검정 ( t test )를 통해 수행
  • 표본평균이 모집단평균과 동일한지 여부는 t값(t value , t statistic)을 검정통계량으로 사용하여 검정

 

여기에서 t는 t값 , X 바는 표본평균, u는 모집단의 평균, s는 표본의 표준편차, n은 표본크기, 루트n / s는 표본평균의 표준편차

t 분포

  • t분포 (t distribution)는 정규분포(Z분포)와 유사한 종 모양의 형태이며 정규분포에 비해 양쪽 꼬리 부분의 면적이 더 두터운 모습
  • 표본크기에 따라서 t분포의 종 모양이 변화
  • 표본의 크기가 클수록 t분포의 종 모양이 뾰족해지며, 표본크기가 작을수록 정점이 낮아지면서 꼬리 부분의 면적이 더 커짐
  • 표본크기가 충분히 커지면 t분포와 정규분포(Z분포)는 거의 구별이 되지 않음.

 

 

예시 : 벤처기업 경영자의 혈압은 일반인과 다른가?  

- 귀무가설 : 벤처기업 경영자의 혈압은 일반인과 같다.

- 대립가설 : 벤처기업 경영자의 혈압은 일반인과 다르다. 

 

표본 : 20명의 벤처기업 경영자 혈압 평균 135, 표준편차 25 

모집단 : 일반인 혈압 평균 115

 

 

t 값

t 검정 : 절대값으로 비교하여 관측된 t값이 유의수준 0.05에 대응되는 t값보다 크므로 귀무가설을 기각합니다.

 

pt() 함수를 사용하면 특정 t값에서 발생하는 누적확률함수를 구할 수 있습니다. 

pt() 함수의 첫번째 인자로 위에서 계산한 t값을 지정해주고 자유도는 표본의 크기에서 1을 빼줍니다. 

대립가설은 일반인과 혈압이 다르다는 것이므로 양 끝 값을 더해야하기 때문에 2를 곱해줍니다. 

결과는 0.05 유의수준에 미치지 못하기 때문에 귀무가설을 기각하고 대립가설을 채택합니다.

\

qt()함수를 사용하면 특정 확률에 대응되는 t값을 산출할 수 있습니다. 

2.09가 나옵니다. 따라서 위의 그래프에서 확인할 수 있습니다.

 


신뢰구간 ( confidence interval ) 

임의의 표본평균 가운데 95%는 다음과 같은 범위에 속합니다.

신뢰구간(confidence interval)은 통계학에서 어떤 모수(예를 들어, 모집단의 평균 또는 비율)의 추정치가 얼마나 정확한지를 표현하는 방법입니다. 신뢰구간은 추정치 주위의 범위를 제공하며, 이 범위는 해당 모수가 어느 정도의 확률로 포함될 것인지를 나타내는 '신뢰수준'을 가지고 있습니다.

 

예를 들어, 95% 신뢰구간이라는 것은 우리가 동일한 방식으로 여러 번 샘플링하고 각각에 대해 신뢰구간을 계산했을 때, 이 신뢰구간들 중 약 95%가 실제 모수를 포함하고 있을 것이라는 것을 의미합니다. 다시 말해, 95% 신뢰구간은 우리가 95% 확신할 수 있는 범위를 나타냅니다.

 

신뢰구간은 표본통계량(예: 표본평균)을 중심으로 하며, 그 양쪽 끝은 표본통계량에 표준오차를 곱한 값으로 이루어집니다. 표준오차는 표본통계량의 변동성을 측정하는 지표로, 표본크기가 커지면 표준오차는 작아지고, 따라서 신뢰구간도 좁아집니다.

 

신뢰구간은 통계적 추정에 있어 중요한 역할을 합니다. 특히, 표본만을 가지고 모집단에 대한 추론을 할 때, 신뢰구간은 우리의 추정치가 얼마나 정확한지에 대한 정보를 제공합니다.

반응형