반응형
LIST
생존분석((Survival Analysis))은 뭘까요 ? (생존분석 포스팅 v1)[https://minyoungxi.tistory.com/88] 생존분석((Survival Analysis))은 관심있는 어떤 사건이 발생할 때까지 경과된 시간 ((time to event)) 을 분석하는 기법입니다. 이름이 생존분석이라서 무조건 '죽음과 생존' 이런 느낌으로 받아들이실 수 있지만, 생존분석은 주로 '시간'과 관련된 데이터를 다루는 통계학의 한 분야로 생각하시면 됩니다. 생존분석의 '생존'은 의학 분야에서 유래했지만, 이 분석 방법은 다양한 분야에서 사용됩니다 ! 생존분석의 핵심은 어떤 사건이 발생할 때까지 걸리는 시간을 분석하는 것이며, 이를 생존시간((Survi..
카플란 마이어 분석 개요 카플란-마이어분석(Kaplan-Meier analysis)은 관측된 생존시간으로부터 생존확률을 추정합니다. $ S(t) = \prod_{i: t_i \le t} \left(1 - \frac{d_i}{n_i}\right) = P_{1} +P_{2} + ... + P_{t-1} = \widehat{S}(t-1) \times P_{t} $ $p1$은 첫 번째 구간을 지나 생존한 비율입니다. $t$개의 구간에서 구한 생존비율들을 누적생존비율(cumulative proportion survivng)이라고 합니다. $ p_{i} = 1 - \frac{d_{i}}{n_{i}},i = 1,2, ... ,t $ 여기에서, $ S(t) $는 $t$시점에서의 생존확률 추정치 $ p_{i} $는 $i..
생존분석 개요 생존분석(survival analysis)은 관심있는 어떤 사건이 발생할 때까지 경과된 시간(time-to-event)를 분석합니다. 사건이 발생할 때까지 걸리는 시간을 생존시간(survival time) 이라고 합니다. 사건을 정의하는 방식에 따라 생존분석의 응용 분야는 광범위합니다. (ex. 자동차 부품이 고장날 때까지 걸린 시간, 장애 발생 후 복구할 때까지 걸린 시간, 실직 후 새로운 직업을 구할 때까지 경과된 시간) 생존분석은 시간의 흐름에 따라 달라지는 사건발생률의 분포를 분석합니다. 사건 발생을 시간의 함수로 모델링하여 일정 시점에서의 생존확률을 추정합니다. 사건 발생까지의 시간이 집단 간에 차이가 있는지 분석합니다. 또한 어떤 변수들이 사건 발생까지의 시간에 영향을 미치는지 ..
상관관계(correlation)과 상관분석(correlation analysis) 두 변수간의 선형적 관계를 '상관'이라고하며, 이러한 관계에 대한 분석을 상관분석이라고 합니다. (ex. 광고비용 지출과 매출 , 1인당 GDP와 기대수명 ) 두 사건에 대응되는 두 변수는 일반적으로 연속형 변수를 가정합니다. R 프로그래밍 plot(cats$Hwt ~ cats$Bwt, col="forestgreen", pch=19, xlab='Body Weight (kg)', ylab="Heart Weight(g)", main = "Body Weight and Heart Weight of Cats") 고양이의 몸무게가 증가할수록 심장무게 역시 증가하는 패턴을 보이고 있습니다. 산점도를 이용하면 이렇게 대략적..
교차표와 $\chi ^{2}$ 검정 $\chi ^{2}$ 검정(chi-square test)는 교차표상의 빈도를 바탕으로 수행합니다. 교차표를 이용하면 범주형으로 수집된 두 변수의 범주 조합에 따른 조합별 빈도를 살펴볼 수 있으며, 이를 통해 두 변수 간의 관계를 파악할 수 있습니다. 독립성검정(independence test)은 두 범주형 변수 간의 관련성이 모집단에서 존재하는지 검정합니다. 20대는 양식 , 30대는 한식, 40대는 중식을 선호한다고 했을때 연령대와 선호하는 음식은 상관관계가 있다고 판단할 수 있습니다. 적합성검정(goodness of fit test)은 범주별 빈도를 바탕으로 모집단에서 기대되는 비율 분포가 존재하는지 검정합니다. ex. 이동 통신회사 A,B,C의 이용자가 각각 50..
다변량 분산분석(multivariate analysis of variance, MANOVA) 다변량 분산분석(multivariate analysis of variance, MANOVA)은 두 개 이상의 종속변수가 있을 경우 집단별 차이를 동시에 검정합니다. 한 개의 종속변수를 사용할 때보다 연구의 타당성을 더 높일 수 있는 장점이 있습니다. 다변량 분산분석 (Multivariate Analysis of Variance, MANOVA)은 분산분석 (ANOVA)의 확장입니다. ANOVA는 하나의 종속 변수에 대해 두 개 이상의 그룹 간 평균 차이를 비교하는 데 사용되는 반면, MANOVA는 두 개 이상의 종속 변수에 대해 두 개 이상의 그룹 간 평균 차이를 비교하는 데 사용됩니다. MANOVA는 여러 개의 ..