[R] - 평균 검정 - t검정 t test, t 값 ( t-value ) , t 분포 ( t distribution ) , 신뢰구간 ( confidence interval )

Abstract
평균검정
t 검정
t 분포
예시 : 벤처기업 경영자의 혈압은 일반인과 다른가?
신뢰구간 ( confidence interval )

Abstract

t-검정 통계에서의 t값은 두 집단의 평균 사이에 통계적으로 유의미한 차이가 있는지를 판단하는 데 사용되는 값입니다.

t값이 크면 두 집단의 평균 사이에 큰 차이가 있다는 것을 의미하며, t값이 작으면 두 집단의 평균 사이에 큰 차이가 없다는 것을 의미합니다.

그러나 t값만으로는 두 집단의 평균 사이에 차이가 통계적으로 유의미한지를 결정할 수 없습니다. 이를 결정하기 위해서는 p값을 계산해야 합니다. p값은 t값과 자유도(샘플 크기에서 1을 뺀 값)를 사용하여 계산되며, p값이 특정 임계값(보통 0.05)보다 작으면 두 집단의 평균 사이에 통계적으로 유의미한 차이가 있다고 판단합니다.

평균검정

평균에 대한 가설 검정을 의미
선정한 표본이 특정 평균값을 갖는 모집단에 속하는지 ( 즉, 표본의 평균과 모집단의 평균이 동일한지 ) 또는 두 표본집단의 평균값 간에 차이가 존재하는지 ( 즉 두 표본집단이 동일한 모집단에 속하는지 ) 검정
일표본 평균검정, 독립표본 평균검정, 대응표본 평균검정

t 검정

평균에 대한 가설검정은 t검정 ( t test )를 통해 수행
표본평균이 모집단평균과 동일한지 여부는 t값(t value , t statistic)을 검정통계량으로 사용하여 검정

여기에서 t는 t값 , X 바는 표본평균, u는 모집단의 평균, s는 표본의 표준편차, n은 표본크기, 루트n / s는 표본평균의 표준편차

t 분포

t분포 (t distribution)는 정규분포(Z분포)와 유사한 종 모양의 형태이며 정규분포에 비해 양쪽 꼬리 부분의 면적이 더 두터운 모습
표본크기에 따라서 t분포의 종 모양이 변화
표본의 크기가 클수록 t분포의 종 모양이 뾰족해지며, 표본크기가 작을수록 정점이 낮아지면서 꼬리 부분의 면적이 더 커짐
표본크기가 충분히 커지면 t분포와 정규분포(Z분포)는 거의 구별이 되지 않음.

예시 : 벤처기업 경영자의 혈압은 일반인과 다른가?

- 귀무가설 : 벤처기업 경영자의 혈압은 일반인과 같다.

- 대립가설 : 벤처기업 경영자의 혈압은 일반인과 다르다.

표본 : 20명의 벤처기업 경영자 혈압 평균 135, 표준편차 25

모집단 : 일반인 혈압 평균 115

Screenshot from 2023-07-24 00-09-23.png — t 값

t 검정 : 절대값으로 비교하여 관측된 t값이 유의수준 0.05에 대응되는 t값보다 크므로 귀무가설을 기각합니다.

pt() 함수를 사용하면 특정 t값에서 발생하는 누적확률함수를 구할 수 있습니다.

pt() 함수의 첫번째 인자로 위에서 계산한 t값을 지정해주고 자유도는 표본의 크기에서 1을 빼줍니다.

대립가설은 일반인과 혈압이 다르다는 것이므로 양 끝 값을 더해야하기 때문에 2를 곱해줍니다.

결과는 0.05 유의수준에 미치지 못하기 때문에 귀무가설을 기각하고 대립가설을 채택합니다.

Screenshot from 2023-07-24 00-14-14.png — \

qt()함수를 사용하면 특정 확률에 대응되는 t값을 산출할 수 있습니다.

2.09가 나옵니다. 따라서 위의 그래프에서 확인할 수 있습니다.

신뢰구간 ( confidence interval )

임의의 표본평균 가운데 95%는 다음과 같은 범위에 속합니다.

신뢰구간(confidence interval)은 통계학에서 어떤 모수(예를 들어, 모집단의 평균 또는 비율)의 추정치가 얼마나 정확한지를 표현하는 방법입니다. 신뢰구간은 추정치 주위의 범위를 제공하며, 이 범위는 해당 모수가 어느 정도의 확률로 포함될 것인지를 나타내는 '신뢰수준'을 가지고 있습니다.

예를 들어, 95% 신뢰구간이라는 것은 우리가 동일한 방식으로 여러 번 샘플링하고 각각에 대해 신뢰구간을 계산했을 때, 이 신뢰구간들 중 약 95%가 실제 모수를 포함하고 있을 것이라는 것을 의미합니다. 다시 말해, 95% 신뢰구간은 우리가 95% 확신할 수 있는 범위를 나타냅니다.

신뢰구간은 표본통계량(예: 표본평균)을 중심으로 하며, 그 양쪽 끝은 표본통계량에 표준오차를 곱한 값으로 이루어집니다. 표준오차는 표본통계량의 변동성을 측정하는 지표로, 표본크기가 커지면 표준오차는 작아지고, 따라서 신뢰구간도 좁아집니다.

신뢰구간은 통계적 추정에 있어 중요한 역할을 합니다. 특히, 표본만을 가지고 모집단에 대한 추론을 할 때, 신뢰구간은 우리의 추정치가 얼마나 정확한지에 대한 정보를 제공합니다.

저작자표시 비영리 변경금지

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

[R] - 평균 검정 - t검정 t test, t 값 ( t-value ) , t 분포 ( t distribution ) , 신뢰구간 ( confidence interval )

Abstract

평균검정

t 검정

t 분포

예시 : 벤처기업 경영자의 혈압은 일반인과 다른가?

신뢰구간 ( confidence interval )

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역