[통계학] - 통계데이터분석 - 콕스회귀분석 ( Cox Regression analysis )

반응형

콕스회귀분석 개요

콕스회귀분석(Cox regression analysis)은 생존시간과 하나 이상의 예측변수 간의 관계를 분석하는 일종의 회귀분석모델입니다.

카플란-마이어분석과 달리 범주형 변수뿐만 아니라 연속형 변수가 생존시간에 미치는 영향을 분석할 수 있는 다변량분석(multivariate analysis)기법입니다.

일반적인 다중회귀분석에서처럼 복수의 요인을 동시에 통계모델에 투입함으로써 모델에 포함된 다른 예측변수들이 일정하다는 가정하에 각 예측변수가 사건발생률에 미치는 영향을 분석합니다.


앞서 학습한 카플란-마이어(Kaplan-Meier)와 Log-Rank Test 방법은 생존율을 추정하는 가장 간단한 방식입니다. 시간(Time)과 사건(Event)만을 고려하여 생존율을 추정하기 때문입니다. 이러한 측면에서 앞선 두 방법은 데이터의 특성을 전혀 반영하지 못하는 Non-Parametric한 분석이라고 합니다.


Parametric한 분석 방법으로 생존 시간 분포(정규분포)가 존재한다고 가정하고 회귀 모델로 생존 기간을 예측하는 방법입니다. 대표적으로 Linear Regression이 있으며, 그 외에도 Accelerated Failure Time Model이 존재합니다.

Cox Proportional Hazard Model (COX) 은 모델이 데이터의 특성은 반영하지만, 생존 시간 분포를 반영하지 않습니다. 다시 말해 생존 시간에 대한 특정한 가정이 필요없다는 점에서 비모수적인 특징을 가지고 있으나, 공변량이 주어졌을 때 특정한 식으로 데이터의 특징을 표현할 수 있기에 모수적인 특징도 가지고 있습니다. 이러한 관점에서 COX 모형은 Semi-Parametric 한 생존 분석 방법이라고 할 수 있습니다.

콕스회귀모델

COX 모형은 시간(Time) - 사건(Event) 데이터를 기반으로 예측 모형을 만드는 통계분석 혹은 생존분석 방법 중 하나입니다. Cox 모형은 Parametric 분석 방법인 회귀분석을 활용하여 중도절단자료(Censored Data) 의 처리가 가능하며, 앞서 언급한 카플란-마이어 방법과 달리 사건 발생에 영향을 줄 수 있는 변수들의 특징을 반영한 모델을 구축할 수 있습니다. COX 모형은 생존함수가 지수함수(Exponential Function)를 따른다는 것과 두 군의 위험비가 연구기간동안 일정하게 유지된다는 비례위험가정 , 이 두가지 가정이 요구됩니다. 특정 시점에서의 생존함수는 위험비에 대한 지수함수로 표현될 수 있어야하며, 위험비는 연구기간 내 일정하게 유지되어야 합니다.

$$ h(t) = h_{0}(t) \times e^{b_{1}x_{1}+b_{2}x_{2}+...+b_{p}x_{p}} $$

  • 여기에서 $ h(t) $는 $t$시점에서의 위험률(hazard rate),

  • $h_{0}(t)$는 $t$ 시점에서의 베이스라인 위험률 : 예측변수값이 모두 0일 때의 사건발생률

  • $ x_{1} + x_{2} + ... x_{p} $는 예측변수.

    위의 수식을 베이스라인 위험률로 나누고 자연로그를 취해주면 예측변수들의 선형 결합으로 표현된 선형 회귀식을 얻을 수 있습니다.

    $$ In(\frac{h(t)}{h_{0}(t)}) = b_{1}x_{1} + b_{2}x_{2} + ... + b_{p}x_{p} $$

    이 수식에서 로그 $ In(\frac{h(t)}{h_{0}(t)}) $는 콕스 회귀 분석의 결과변수 역할을 합니다. 콕스회귀분석을 통해 우변의 예측변수들에 대한 p개의 회귀계수가 추정됩니다. 회귀계수는 다중회귀분석의 회귀계수와 동일한 방식으로 해석할 수 있습니다. 즉, 다른 변수가 일정할 때 (다른 변수를 통제한 상태에서) 예측 변수 한 단위의 증가가 가져오는 결과변수의 변화량 입니다.

    $$ \frac{h(t)}{h_{0}(t)} = e^{b_{1}x_{1}+b_{2}x_{2}+...+b_{p}x_{p}} = e^{b_{1}x_{1}} e^{b_{2}x_{2}} + ... e^{b_{p}x_{p}} $$

    위의 식에서 양 변에 지수함수를 취해서 자연로그 부분을 없애면 해석이 용이한 실제 위험률과 베이스라인 위험률 간의 비율이 결과변수인 회귀식을 도출할 수 있습니다.

위험비

회귀식을 바탕으로 콕스회귀분석에서 일반적으로 관심을 갖는 위험비를 구할 수 있습니다.

위험비(hazard ratio): 예측변수 한 단위가 증가할 때 변화하는 위험률

위험비($ e^{b_{i}} $)와 위험률 간의 관계 :

  1. 위험비 > 1 ( $b_{i}$): 위험률 증가
  2. 위험비 = 1 ( $b_{i}=0$) : 영향 없음
  3. 위험비 < 1 ( $b_{i}<0$ ): 위험률 감소

콕스회귀분석은 위험비가 생존기간 내내 일정하다고 가정하며 이를 비례위험가정(proportional hazards assumption)이라고 합니다.
( 위험비에는 시간적 요소가 포함되지 않습니다. 시간에 따라 위험비가 다르지 않습니다. )

Source Code

[https://github.com/minyoungci/R_basic/blob/main/%ED%86%B5%EA%B3%84%EB%8D%B0%EC%9D%B4%ED%84%B0%EB%B6%84%EC%84%9D/R%20-%20%E1%84%90%E1%85%A9%E1%86%BC%E1%84%80%E1%85%A8%E1%84%83%E1%85%A6%E1%84%8B%E1%85%B5%E1%84%90%E1%85%A5%E1%84%87%E1%85%AE%E1%86%AB%E1%84%89%E1%85%A5%E1%86%A8%20-%20%E1%84%89%E1%85%A2%E1%86%BC%E1%84%8C%E1%85%A9%E1%86%AB%E1%84%87%E1%85%AE%E1%86%AB%E1%84%89%E1%85%A5%E1%86%A8%20-%20%E1%84%8F%E1%85%A9%E1%86%A8%E1%84%89%E1%85%B3%E1%84%92%E1%85%AC%E1%84%80%E1%85%B1%E1%84%87%E1%85%AE%E1%86%AB%E1%84%89%E1%85%A5%E1%86%A8.R]

반응형