[논문리뷰] - All models are wrong and yours are useless: making clinical prediction models impactful for patients - 의료 인공지능 연구자들의 필수 아티클

 

Preview

본 논문은 의료 분야에서 출간되는 여러 논문들에 대해 신랄하게 비판하고 있습니다. 요즘에는 좋은 저널에 실린 훌륭한 AI 기반 예측 모델들이 굉장히 많은데요, 이 연구들은 실제 임상에서 거의 사용되지 않습니다. 

npj에 실린 이 아티클은 여러 논문에 실린 모델들이 왜 쓸모없는지(useless)에 대해 굉장히 현실적인 인사이트를 담고 있습니다. 저자는 캠브리지 대학의 연구자로 지난 20년간 의료 예측 모델을 개발하고 이를 사업화하는 과정에서 얻은 깨달음을 본 아티클을 통해 여러 연구자들에게 전하는 것 같습니다. 

저자는 지난 20년간 본인의 연구를 임상 현장에서 사용될 수 있도록 만들기 위한 과정에서 아래와 같은 'Observation'들을 얻었다고 언급합니다. 

 

Interesting Points

아티클은 약 세 장 분량으로 매우 짧은 페이퍼입니다. 하지만 짧은 페이퍼안에 매우 신랄한 비판들이 실려있습니다. 첫 문단에 나와있는 내용을 보면 연구자들에게 던지는 메세지가 인상적입니다. 'I think your model is uselss' 라며 꽤나 직접적으로 연구자들을 디스(?) 하고 있습니다. 의료 도메인의 논문들에서 자주 발견되는 단어들에 대해서도 꼬집는데요. 

"might", "could", "potential" 과 같은 책임을 회피하는 듯한 단어들을 사용한다고 비판하고 있죠. 

 

저자는 아래의 논문을 출판한 경험을 언급합니다. 해당 논문은 대장암(colon caner)을 새로운 아형으로 분류하는 방법을 제안하며 이 아형들에 대한 조직병리학적 마커(Histopathology markers)를 설계했다고 합니다. 이 아형들을 쉽고 유용하게 만들기 위한 노력이 많이 들어간 논문이었지만, 실제로 연구에서 발견한 분류 체계들 중 환자들에게 도움이 될 만한 요소는 없었다고 합니다. 또한 해당 연구 뿐만 아니라 저자의 연구실에서 진행하는 유방암(Breast Cancer)과 췌장암(Pancreatic Cancer)의 아형들 또한 임상에서 널리 사용되지 않는다고 합니다.  

 

https://pubmed.ncbi.nlm.nih.gov/23584090/

 

Poor-prognosis colon cancer is defined by a molecularly distinct subtype and develops from serrated precursor lesions - PubMed

Colon cancer is a clinically diverse disease. This heterogeneity makes it difficult to determine which patients will benefit most from adjuvant therapy and impedes the development of new targeted agents. More insight into the biological diversity of colon

pubmed.ncbi.nlm.nih.gov

 

학계의 기준으로 봤을 때 저자의 논문은 매우 성공적인 연구입니다. 해당 분야에서 크게 인정받았고 인용(citation)수도 많았죠. 

그럼에도 불구하고 저자는 뭔가 놓친 듯한 느낌이 들었다고 합니다. ( Still, it feels to me like there is something missing )

 

저자는 학술 논문을 논문 자체의 목적이 아닌 임상 적용을 향한 여정의 시작으로 보게 되었다고 합니다. 그리고 본인의 연구 중 임상적 영향이 매우 적다는 것에 대해서 좌절감을 느꼈습니다. 저자는 지난 20년간 깨달은 바에 대해서 다음과 같이 설명합니다.

 

 

 

관찰1. 학계에서의 성공이 임상에서의 성공과 동일하지 않다. 

 

학계에서의 성공은 논문, 연구비, 영향력 지수, 인용 횟수로 측정됩니다. 반면, 당신의 모델이 임상에서 성공했는지는 다르게 측정됩니다. 얼마나 많은 병원에서 자주 사용되는지 , 궁극적으로 환자들에게 어떤 도움이 되는지와 같은 것들이죠. 

 

저자는 학술적인 연구가 왜 임상에서 성공적이지 못하는지에 대해서 설명합니다. 

학술적인 성과를 실제로 구현(implement)할 동기가 없기 때문이라고 하죠. 학계의 커리어에서는 구현(implement)보다 참신성에 우선을 둡니다. 왜냐하면 이미 확립된 모델을 구현하기 위해 병원 소프트웨어 시스템의 세부 사항을 탐색하는 것보다, 또 다른 모델을 발표하는 것(아무리 쓸모없다 하더라도)이 당신의 경력에 더 도움이 되기 때문입니다.

 

 

 

관찰 2: 성공적인 모델들은 일상적인 진료에서 이용 가능한 데이터를 사용한다.

 

TCGA7와 같은 대규모 학술 컬렉션은 마치 DNA, RNA, 메틸화, 영상, 단백체학 데이터를 통합하는 것이 이미 일반적인 관행인 것처럼 보이게 합니다.  하지만 실제 임상 현실에서 사용할 수 있는 유일한 데이터는 H&E 슬라이드와 일부 DNA 정보 정도일 것입니다(그나마도 같은 환자의 것이기를 바랄 뿐입니다).

 

결과적으로, 중요한 진전이 무엇인지에 대한 학계의 시각(더 많은 공간 정보! 더 많은 멀티오믹스!)은 임상 현실과 맞지 않습니다.

이 관찰은 특히 유전자 발현 데이터와 관련하여 중요합니다. 유전자 발현 데이터는 학계에서는 흔히 사용되지만7-9, 임상에서는 OncotypeDx, MammaPrint, ProSigna와 같이 유방암에 대한 임상 결정을 개선하는 소수의 성공 사례만을 만들어냈습니다. 이는 20년 전에 획기적인 돌파구로 찬사받았던 분야10에 비해 실망스러운 결과입니다.

 

관찰 3: 성공적인 모델들은 구체적인 행동과 연결되어 있다.

 

저자가 앞서 설명한 암 아형 분류 연구들이 본인이 희망했던 만큼의 영향력을 갖지 못한 이유는, 그것들이 명확한 행동 지침과 연결되지 않은 채 단순히 생존율의 차이만을 보여주기 때문입니다.

 

일부 환자들의 예후가 더 좋고 다른 이들의 예후가 더 나쁘다는 것을 알면 뭐가 달라질까요? 마찬가지로, 유방암 아형을 위한 원래의 PAM50 분류기10는 어떤 구체적인 행동과도 연결되지 않아 쓸모없었습니다. 이는 ProSigna 검사가 이를 수정하여 고위험 환자들에게 보조 화학요법을 추천하는 예후 점수로 만들기 전까지의 이야기입니다.

 

 

관찰 4: 성공적인 모델들은 최고 수준의 센터 외부에서도 구현된다.

 

만약 당신이 영향력을 갖고 싶다면, 당신의 도구는 케임브리지, 스탠포드, 취리히와 같은 최고 수준의 기관 외부에서도 사용되어야 합니다.

 

당신의 소속 기관에 있는 연구에 능통한 임상의와 협력하는 것은 필요하지만, 진정한 영향력을 위해서는 당신의 학술적 편안함을 벗어나 다른 곳의 의사들이 당신의 도구를 유용하다고 생각하는지, 그리고 그것이 다양한 임상 경로와 의사 결정 절차에 얼마나 잘 맞는지 알아내야 합니다.

 

이 관찰은 의료 기술의 폭넓은 적용과 실제 임상 환경에서의 유용성에 대해 중요한 점을 지적하고 있습니다. 최고 수준의 연구 기관에서 개발된 모델이 실제 일반적인 의료 환경에서도 효과적으로 작동하는지 확인하는 것이 중요함을 강조하고 있죠. 이는 의료 기술의 실질적인 영향력과 확산을 위해 필수적인 단계라고 볼 수 있습니다.

 

관찰 5: 임상에서의 성공은 어렵게 얻어진다.

 

병원은 환자들에 대한 책임의 일환으로 혁신을 수용할 의무가 있습니다. 하지만 병원은 보수적이고 엄격하게 규제되는 환경입니다. 여기서는 기존 관행의 모든 변화가 환자에게 미칠 수 있는 잠재적 해악과 상쇄되어야 합니다. 게다가 의료 시스템은 자금이 부족하고 의사들은 과로에 시달리고 있다는 사실을 고려하면, 왜 당신이 새로운 접근 방식의 유용성에 대한 상당한 증거를 제시해야 하는지 이해할 수 있을 것입니다. 이는 병원이 당신의 학술적 통찰을 고려하기 시작하기 전에 필요한 과정입니다.

 

이 관찰은 학술 연구 결과를 실제 임상 현장에 적용하는 과정의 어려움을 잘 보여줍니다. 의료 환경의 특성상 새로운 기술이나 방법을 도입하는 데에는 많은 증거와 노력이 필요하며, 이는 연구자들에게 추가적인 부담이 될 수 있음을 지적하고 있습니다. 그럼에도 불구하고, 이러한 과정은 환자 안전과 의료 품질 향상을 위해 필요한 단계임을 이해하는 것이 중요합니다.

 

 

 

 

연구 결과의 임상 적용에 대한 현실적인 접근 방식을 제시하고 있습니다. 단순히 시간이 지나면 임상에 적용될 것이라는 수동적인 태도보다는, 구체적인 계획과 로드맵을 가지고 능동적으로 임상 적용을 추진해야 한다는 점을 강조하고 있습니다. 또한, 규제 과정의 중요성과 이를 조기에 고려해야 한다는 점도 중요하게 다루고 있습니다.

 

 

바렛식도(Barrett oesophagus)를 감지하기 위한 내시경의 최소 침습적 대안인 Cytosponge로 촬영한 이미지를 분석하는 AI 모델에 대한 우리의 연구는 저자의 박사 학생 중 한 명이 설립한 Cyted라는 회사의 기반이 되었습니다(www.cyted.ai).

 

그리고 다양한 유형의 염색체 불안정성을 측정하는 저자의 연구는 범암 정밀 플랫폼을 가진 유전체학 스타트업인 Tailor Bio의 설립으로 이어졌습니다(www.tailor.bio).

 

이 회사들이 정말로 저자의 연구실에서 진행된 학술 연구를 광범위하게 일상적인 진료에 적용할 수 있을지는 시간이 지나면 알 수 있을 것입니다. 하지만 저자는 적어도 그들이 그곳에 도달하기 위한 구체적이고 실용적인 계획을 가지고 있다고 확신합니다. 그러한 계획이 없었다면 그들은 결코 자금을 조달받지 못했을 것이기 때문입니다.

 

 

아래의 내용은 본 아티클에서 언급한 임상 예측 모델을 개발할 때 고려야할 중요한 사항들입니다.

 

- 명확한 임상 결정 지점을 다루고 있습니까?


- 당신의 도구가 그 의사결정에 도움이 되는 매개변수를 출력합니까?


- 명확한 임상 결정 지점을 다루고 있습니까? 확실합니까? 해당 분야의 전문가인 임상 협력자와 상의해 보는 것이 좋습니다.


- 입력 매개변수들이 일반적인 임상 진료에서 사용되고 있습니까?


- 명확한 임상 결정 지점을 다루고 있습니까? 정말로, 정말로 확실합니까? 다양한 전문가와 이해관계자 그룹으로부터 조언을 구하는 것이 좋습니다.


- 인터페이스가 입력과 출력 모두에서 사용하기 쉽습니까?


- 당신의 모델이 현재의 임상 판단에 어떤 가치를 더합니까?


- 당신의 도구가 기존 도구들보다 더 나은 점이 있습니까?


- 당신의 구현 계획은 무엇입니까?

  a. 의사들이 실제로 이 도구를 사용하기 위해 무엇이 필요합니까? 
  b. 의료기기 규제를 통과하기 위한 경로는 무엇입니까?
  c. 의료 환경이 이를 받아들일 준비가 되어 있습니까?

 

 

Review

본 아티클은 학술적인 연구에서 개발된 모델이 임상적으로 유용성을 가지기 어렵다는 점을 강조하고 있습니다. 저역시 의료 인공지능을 연구하는 연구자로서 '연구'라는 것에 대해서 진지하게 다시 고민해볼 수 있는 아티클이었습니다. 

연구자들 뿐만 아니라 대학교, 임상가, 벤처 투자자 등 관련 업계 분들이 반드시 읽어봐야 하는 가이드북이 아닐까 싶습니다. 

 

특히 학계에서 연구를 평가하는 지표인 IF(Impact Factor), Citation, Funding 등을 직접적으로 비판하는 것은 매우 인상깊었습니다. 저자도 같은 연구자이기에 이 분야에서 인정받은 사람이 기존의 관행에 정면으로 부딪히는 일은 매우 어려운 일이죠. 

 

연구 선배가 해주는 조언같은 아티클이었습니다. 

 

반응형