카플란 마이어 분석 개요
카플란-마이어분석(Kaplan-Meier analysis)은 관측된 생존시간으로부터 생존확률을 추정합니다.
$ S(t) = \prod_{i: t_i \le t} \left(1 - \frac{d_i}{n_i}\right) = P_{1} +P_{2} + ... + P_{t-1} = \widehat{S}(t-1) \times P_{t} $
$p1$은 첫 번째 구간을 지나 생존한 비율입니다. $t$개의 구간에서 구한 생존비율들을 누적생존비율(cumulative proportion survivng)이라고 합니다.
$ p_{i} = 1 - \frac{d_{i}}{n_{i}},i = 1,2, ... ,t $
여기에서,
- $ S(t) $는 $t$시점에서의 생존확률 추정치
- $ p_{i} $는 $i$ 시점에서의 생존비율
- $ d_{i} $는 $i$시점에서의 사망자 수
- $n_{i}$는 $i$시점에서의 생존자수
생존함수곡선
시간의 흐름에 따라 누적생존비율(즉 생존함수)이 변해가는 추세는 생존함수곡선(survival function curve)을 통해 시각적으로 확인할 수 있습니다. 위의 그림을 생존함수 곡선으로 표현하면 아래와 같습니다.
집단 간 생존함수 비교
로그순위검정(log rank test) 은 '모든 시점에서 집단 간에 생존시간의 차이가 없다'는 귀무가설을 통계적으로 검정합니다.
$ \chi2_{logrank} = \frac{(O_{1} - E_{1})^{2} }{E_{1}} + \frac{(O_{2} - E_{2})^{2} }{E_{2}} $ 여기에서, $ \chi2_{logrank} $는 로그순위 검정통계량(<집단개수-1>을 자유도로 갖는 $ \chi2 $ 분포를 따름 ), $ O_{1}, O_{2} $는 집단1과 집단2의 사망 관측빈도, $ E_{1}, E_{2} $는 집단1과 집단2의 사망 기대빈도
$ E_{1} = \sum \frac{d_{i}}{n_{i}} $ / $ E_{2} = \sum \frac{d_{i}}{n_{2i}} $
- 여기에서 $ E_{1} $ 및 $ E_{2} $는 집단1과 집단2의 사망 기대빈도
- $ d_{i} $는 $ i $ 시점에서의 사망자 수
- $ n_{1i}$와 $n_{2i} $는 $i$ 시점에서의 집단1과 집단2의 생존자 수
- $n_{i}$는 $i$ 시점에서의 전체 생존자 수
사건발생 기대빈도는 각 사건발생 시점에서의 개별 사건발생 기대빈도를 계산하고 이를 모두 합산합니다.
개별 사건발생 기대빈도는 각 사건발생 시점의 사망률에 집단의 생존자수를 곱해서 계산할 수 있습니다.
각 사건발생 시점에서의 사망률은 집단 구분없이 전체 사망자수를 생존자수로 나눠서 계산합니다.
귀무가설이 사실이라면 이 비율은 두 집단 모두에게 동일하게 적용되어야 하므로 이렇게 계산한 사망률을 집단별 생존자수에 곱하여 집단별 기대빈도를 계산할 수 있습니다.
예를 들어 1일차의 시작시점에는 15명의 생존자가 있습니다. 같은 날 사망자수는 2명이고 사망률은 2/15 = 0.133입니다.
15명의 환자 가운데 치료제2를 처방받은 환자는 8명이므로 사망자의 기대빈도는 8 x 0.133인 1.07이 됩니다.
정리
의료 분야에서는 특정 치료 방법 혹은 수술 방법이 환자의 생존 기간에 영향을 미치는 지 확인하기 위해 Kaplan-Meier 곡선을 활용합니다. 따라서, 본 예제에서 진행한 것과 다르게 기존 치료 방법과 새로운 치료 방법을 동시에 나타내어 어떠한 치료 방법이 높은 생존율을 가지는지 비교하기 위해 Kaplan-Meier 곡선을 사용하기도 합니다.