통계 데이터 분석 다시 시작 !! R을 사용해서 통계에 집중한 데이터 분석 연습을 다시 해볼까 합니다 :)
표본(Sample) 및 모집단(Population)
표본 ( Sample )
데이터 수집에 포함된 참여자의 집단을 의미한다.
모집단으로부터 추출된 관측값이나 측정값의 집합.
표본 데이터의 특성을 그대로 기술하는 기술 통계 ( descriptive statistics)의 대상
모집단 ( Population )
우리가 궁극적으로 결론을 도출하고자하는 대상이 되는 집단입니다.
관심의 대상이 되는 모든 개체의 관측값이나 측정값의 집합. 표본 데이터의 특성으로부터 수학적 확률 이론을 토대로 그 데이터가 속해있을 것으로 예상되는 전체 모집단의 특성을 추론하는 추론 통계 ( inferential statistics)의 대상
표본의 선정
* 판단 표본 ( judgement sample ) : 특정 분야에 관한 지식이나 경험이 풍부하여 모집단의 특성을 효과적으로 반영할 수 있을 것으로 생각되는 표본
* 편의 표본 ( Convenience Sample ) : 임의로 조사자의 편의에 따라 선정된 표본
* 무작위 표본 ( Random Sample ) : 모집단 내의 모든 구성요소들을 포함하고 있는 목록으로부터 선정된 표본. 대표성(Representativeness)을 보장하는 유일한 방법
측정 척도
측정 ( measurement ) : 데이터 항목의 속성에 숫자를 부여하는 과정
척도 ( Scale ) : 측정을 위해 사용되는 도구
척도의 종류
명목 척도 ( nominal scale ) : 속성을 단지 숫자로 식별 ( ex. 성별, 산업분류 ) , 사칙 연산 x
서열 척도 ( ordinal scale ) : 크기 순서로 서열화 가능 ( ex. 성적 등급, 모스 정도 ) , 사칙 연산 x
-> 범주형(Categorical) 데이터
간격 척도 ( interval scale ) : 몇 간의 간격이 고정된 측정 단위로 표현 ( ex. 온도 ) , 사칙 연산이 가능, 비율이 의미를 가지지 않음
비율 척도 ( ratio scale ) : 값 간의 비율적 비교가 가능 ( ex. 소득 ) 사칙 연산 및 수학 함수의 적용이 가능.
-> 연속형(Continuous) 데이터
신뢰도 Reliability
측정 척도의 신뢰도(reliability)란 측정 척도가 측정하려고 의도하는 것을 얼마나 정확하게 오차없이 추정하고 있는지를 나타냄.
동일한 개념 ( 또는 대상 )을 유사한 척도로 측정할 경우 일관된 결과를 산출하는 정도
크론바흐 알파계수 ( Cronbach's Cofficient a )
하나의 개념을 여러 측정 항목으로 측정할 때 나타내는 항목간의 일관성이나 동질성의 정도를 나타내며 이를 내적 일관성(internal consistency)이라고 함.
0에서 1사이의 값을 가지며 클수록 측정 항목의 신뢰도가 높다.
표본(Sample) 및 모집단(Population)
아래는 alpha()함수를 실행시킨 결과입니다.
raw_alpha 값은 크론바흐 알파계수의 값입니다.
크론바흐 알파계수는 0.8 이상이면 바람직하고 , 0.6 <= a <= 0.8 이면 수용할 만하고, 0.6 미만인 경우 신뢰도가 결여됐다고 판단합니다.
Item statistics은 항목 전체의 상관관계를 나타냅니다.
항목 전체 상관관계란 특정 항목의 측정값과 모든 항목의 합산된 측정값 간의 상관 계수를 의미합니다. 이 값은 raw.r 값입니다.
항목 전체 상관관계가 높을 수록 해당 측정 도구는 신뢰도가 높다고 할 수 있습니다.
그런데 전체 합산 값에 상관관계를 구하려는 특정 항목의 측정값이 포함되어 있기 때문에이 지표는 자기 자신과의 높은 상관계가 이미 반영되는 문제가 있습니다.
이런 문제를 보완하기 위해서 합산된 측정값 계산을 할 때 해당항목을 제외한 다음에 항목 전체 상관관계를 산출하기도 합니다.
이 값은 r.drop에서 확인할 수가 있습니다.
높은 신뢰도를 갖기 위해서는 각 항목은 전체 항목과 상관관계를 가져야 하기 때문에 전체 합산 값과 상관관계를 갖지 않는 항목이 무엇인지 주의깊게 봐야합니다. 따라서 raw.r 값과 r.drop값이 다른 항목에 비해서 낮은 값이 무엇인지 확인해야 합니다.
지나치게 낮은 항목은 신뢰도를 낮추는 원인일 가능성이 높습니다. 아래의 표에서는 ACT가 값이 낮게 측정되고 있습니다.
Reliability if an item is dropped
는 특정 변수를 제거할 때, 신뢰수준이 어떻게 변화하는지 살펴볼 수 있습니다. raw_alpha 값은 특정 변수 혹은 항목을 제거할 때 신뢰도 수준을 나타냅니다.
예를 들어 raw_alpha에서 ACT를 제거할 경우 크롬바흐 상관계수는 0.785가 됩니다. ( 0.61 -> 0.785 증가 ) 하지만 SATV 혹은 SATQ를 제거할 경우 상관계수가 매우 낮아지는 것을 확인할 수 있습니다.
insight -> ACT를 제거할 경우를 고려해도 되지만 , SATV SATQ를 제거할 필요는 없다. !
그렇다면 ACT를 제거하고 난 후의 결과를 살펴볼까요?
raw_alpha값이 0.79로 개선이 된 것을 확인할 수 있습니다.