[통계학] - 생존분석 - 중도절단과 생존함수 - survival analysis censoring censored

반응형

생존분석 개요

생존분석(survival analysis)은 관심있는 어떤 사건이 발생할 때까지 경과된 시간(time-to-event)를 분석합니다.
사건이 발생할 때까지 걸리는 시간을 생존시간(survival time) 이라고 합니다.

사건을 정의하는 방식에 따라 생존분석의 응용 분야는 광범위합니다.
(ex. 자동차 부품이 고장날 때까지 걸린 시간, 장애 발생 후 복구할 때까지 걸린 시간, 실직 후 새로운 직업을 구할 때까지 경과된 시간)

생존분석은 시간의 흐름에 따라 달라지는 사건발생률의 분포를 분석합니다. 사건 발생을 시간의 함수로 모델링하여 일정 시점에서의 생존확률을 추정합니다. 사건 발생까지의 시간이 집단 간에 차이가 있는지 분석합니다. 또한 어떤 변수들이 사건 발생까지의 시간에 영향을 미치는지 분석합니다.

생존 분석의 주요 개념들

  • 시간(time) : 상대적인 개념으로의 시간. 즉, 분석하려는 대상을 관찰하기 시작한 시점으로부터 경과한 시간입니다. 예를 들어 A라는 환자가 2022년도 3월에 진단을 받고 같은 해 5월에 event가 일어났다면 t=2 개월입니다.

  • 사건(event) : 생존의 반대 개념이다. 보통 failure라는 표현을 사용합니다. 죽음, 사고, 재발 등 생존 분석의 대상이라 할 수 있습니다. 사건은 한 번만 일어나게 되며 보통 0(일어나지 않음 또는 censored), 1(일어남)으로 표현합니다.

  • 중도절단(censoring) : 생존 분석 데이터의 중요한 특징 중 하나로, 보통 right censored의 특징을 가집니다. Right censored는 대상에 아직 사건이 발생하지 않았거나, 기타 다양한 이유로 종료된 것을 의미합니다. 일반적인 regression 분석과의 차이를 만들어주는 데이터의 특징으로 생존분석을 더 특별하고 까다롭게 만들어주는 특성입니다.

중도절단

중도절단(censoring)은 생존시간 데이터에 포함된 생존분석 특유의 결측값입니다.

중도절단 데이터(censored data)는 관측된 기간 동안 분석 대상자에게서 사건이 일어나지 않을 때 발생합니다.
( ex. 환자의 추적이 어려운 상태(loss to follow up) , 환자가 더 이상 실험에 참여하지 않기로 결정(drop out), 연구 종료로 더 이상의 추적조사 불능(termination of study), 연구와 관련 없는 이유로 사망(death from unrelated cause) )

생존시간 데이터 예시

Screenshot from 2023-08-12 16-08-27

생존시간 데이터 : '사망'은 사건발생을 나타내며, 그 밖의 '모름' 및 '생존'은 중도절단을 의미합니다.

  • 환자9는 관측을 시작한 이후 12일째 사망
  • 환자10은 15일째 더 이상 추적조사할 수 없는 상태
  • 환자12는 25일이 경과된 현재 생존 상태 유지.

생존함수

생존함수(survival function) $S(t)$는 적어도(최소한) t시점까지 생존할 확률(즉 t시점을 지나서 생존할 확률)

$$ S(t) = Pr(T > t) = 1-P(t) $$
여기에서 $S(t)$는 생존함수, $T$는 생존시간, $P(t)$는 $T$의 누적확률분포함수

$S(0)=1 , $S$(\infty)=0

$$P(t) = Pr(T <= t) = $\int_{0}^{t} f(t)dt$$

여기에서 $T$는 생존시간, $f(t)$는 $T$의 확률밀도함수, $P(t)$는 $T$의 누적확률분포함수

위험함수

위험함수(hazard function) $h(t)$는 $t$시점에 생존한 분석 대상자가 해당 시점에서 사망할 확률(즉 t 시점까지 생존한 환자가 그 시점에서 사망할 조건부확률)

$$ h(t) = \lim_{\triangle t \rightarrow 0} )\frac{ Pr(t \leq T < t + \triangle t \mid T > t}{\triangle t} $$

여기에서 $h(t)$는 위험함수, $T$는 생존시간

$$ H(t) = \int_{0}^{t} h(t)dt = -InS(t) $$

여기에서, $H(t)$는 누적위험함수, $h(t)$는 위험함수, $S(t)$는 생존함수

반응형