[논문리뷰] - 구글이 내놓은 의료 도메인 특화 LLM- Large Language Models Encode Clinical Knowledge

Large Language Models Encode Clinical Knowledge

Metadata

Title:: Large Language Models Encode Clinical Knowledge

Authors:: Karan Singhal, Shekoofeh Azizi, Tao Tu, S. Sara Mahdavi, Jason Wei, Hyung Won Chung, Nathan Scales, Ajay Tanwani, Heather Cole-Lewis, Stephen Pfohl, Perry Payne, Martin Seneviratne, Paul Gamble, Chris Kelly, Nathaneal Scharli, Aakanksha Chowdhery, Philip Mansfield, Blaise Aguera y Arcas, Dale Webster, Greg S. Corrado, Yossi Matias, Katherine Chou, Juraj Gottweis, Nenad Tomasev, Yun Liu, Alvin Rajkomar, Joelle Barral, Christopher Semturs, Alan Karthikesalingam, Vivek Natarajan,
Year:: 2022
ItemType:: preprint

Keywords:: ⭐⭐⭐Reading, Computer Science - Computation and Language

Related::

Abstract

LLM(Large Language Models, 대규모 언어 모델)은 자연어 이해와 생성에서 인상적인 능력을 보여주고 있지만 의학 및 임상 응용 분야에서의 품질 기준은 매우 높습니다. 오늘날 모델의 임상 지식을 평가하는 시도는 일반적으로 제한된 벤치마크에서의 자동 평가에 의존하고 있습니다. 다양한 작업에서 모델 예측과 추론을 평가할 표준이 없습니다. 이를 해결하기 위해, 전문가 의학 시험, 연구, 소비자 질문을 아우르는 여섯 가지 기존의 개방형 질문 응답 데이터셋을 결합한 MultiMedQA 벤치마크와 온라인에서 검색된 의학 질문의 새로운 자유 응답 데이터셋인 HealthSearchQA를 소개합니다. 모델 답변을 사실성, 정밀성, 가능한 해악, 편견 등 여러 축을 따라 인간 평가하는 프레임워크를 제안합니다. 또한, 우리는 5400억 매개변수 LLM인 PaLM과 그것의 지시 튜닝된 변형인 Flan-PaLM을 MultiMedQA에서 평가합니다. 다양한 프롬프트 전략을 사용하여 Flan-PaLM은 모든 MultiMedQA 다지선다 데이터셋(MedQA, MedMCQA, PubMedQA, MMLU 임상 주제)에서 최고 수준의 정확도를 달성했으며, MedQA(미국 의료 면허 시험 질문)에서 67.6%의 정확도를 기록해 이전 최고 수준을 17% 이상 상회했습니다.


그러나 인간 평가는 Flan-PaLM 응답에서 중요한 격차를 드러냅니다. 이 문제를 해결하기 위해 소수의 예시를 사용하여 LLM을 새로운 도메인에 맞추어 조정하는 매개변수 효율적인 접근 방식인 지시 프롬프트 튜닝을 도입합니다. 결과적으로 생성된 모델인 Med-PaLM은 고무적인 성능을 보이지만 여전히 임상의에 비해 열등합니다. 우리는 모델의 규모가 커지고 지시 프롬프트 튜닝이 이루어질수록 이해력, 지식의 회상 및 의학적 추론이 향상됨을 보여주며, 이는 의학 분야에서 LLM의 잠재적 유용성을 시사합니다. 우리의 인간 평가는 오늘날 모델의 중요한 한계를 드러내며, 임상 응용 분야에서 안전하고 유용한 LLM 모델을 만들기 위한 평가 프레임워크와 방법 개발의 중요성을 강조합니다.

Main ideas:

  • LLM을 사용해 의료 도메인에 특화된 Med-PaLM 개발

Key points:

  • Med-PaLM이 인간 의사에 여러 측면에서 버금갈만큼 강력한 퍼포먼스를 보여줌
  • LLM의 expressive & interactive한 특성을 활용해 의학 텍스트의 의학 도메인을 대규모로 학습할 수 있고, 이를 의료의 다양한 응용 분야에서 활용해 볼 수 있음.

⭐ Interesting point

To address this, we present MultiMedQA, a benchmark combining six existing open question answering datasets spanning professional medical exams, research, and consumer queries; and HealthSearchQA, a new free-response dataset of medical questions searched online. We propose a framework for human evaluation of model answers along multiple axes including factuality, precision, possible harm, and bias

MultiMedQA는 벤치마크 데이터셋을 큐레이션해서 만들었습니다. 기존의 의학 질문-답변 데이터셋 6가지(MedQA, MedMCQA, PubMedQA 등등) 와 HealthSearchQA(소비자들이 구글에 검색된 의학 질문을 활용한 데이터셋)까지 포함.
저자들은 모델의 답변을 사실성, 정밀성, 해를 끼칠 가능성, 편견 등 여러 측면에서 인간이 평가하는 프레임워크 제안. ( 의료는 안정성이 매우 중요한 도메인으로 evaluation framework를 극히 세심하게 만든것 같음 , LLM의 expressive&interactive model 특징을 잘 살려 사람처럼 생각할 수 있도록! )

스크린샷 2023-11-10 11 39 00

본 논문에서는 세 가지 LLM이 등장한다. (PaLM, Flan-PaLM, Med-PaLM )
기본적으로 구글의 범용 LLM인 PaLM(540B)을 기반으로 instruction-tuned variant인 Flan-PaLM을 먼저 만들었다. 이 Flan-PaLM은 의료에 특화된 모델이 아님에도 불구하고 few-shot, chain-of-thought, self-consistency prompting strategy를 활용해서 여러 의학 질문-답변 데이터셋(미국 의사 면허 시험(MedQA), MedMCQA, PubMedQA, MMLU 임상 주제)을 테스트하면 SOTA의 성능을 보여준다.
논문에서는 Flan-PaLM이 PaLM에 비해서 의학 질문 답변에 대해서 강력한 퍼포먼스를 보여주는 것에 대해서 일종의 emergent ability(창발)로 규정하고 있다. 성능은 파라미터를 키울 때(8b->62b->540b)크게 좋아진다. (PaLM, Flan-PaLM 모두 동일)

그런데 Flan-PaLM은 소비자들이 직접 구글링한 consumer medical question에 대해서 답변하는 능력은 다소 떨어졌다고 한다. 그래서 저자들은 의료 도메인에 특화시키기 위해 instruction prompt tuning(지시 프롬프트 튜닝)을 제안했다. 그 결과 탄생한 것이 바로 의료에 특화된 LLM인 Med-PaLM이다. (성능은 아래에서 확인)

스크린샷 2023-11-10 11 41 28

그림 2는 Med-PaLM을 위한 지시 프롬프트 튜닝에 대해 설명합니다. 연구팀은 소비자 의학 질의응답 데이터셋마다 자격을 갖춘 임상의의 패널로부터 지시사항과 예시를 사용하고, 이를 통해 Flan-PaLM을 지시 프롬프트 튜닝합니다. Med-PaLM은 의료 분야와 일치하는 추가적인 프롬프트 매개변수를 가진 결과 모델입니다.


스크린샷 2023-11-10 11 44 08

인간 의사, Flan-PaLM, Med-PaLM의 퍼포먼스 비교. 검증은 질문 100개를 각 세 가지 모델에서 답을 얻은 후, 이를 blind 처리해서 9명의 의사 패널이 평가하는 방식으로 진행함.
평가한 기준은 scientific consensus, inappropriate/incorrect content, missing content, possible harm, bias 등이 있다. 이 모든 항목에서 Med PaLM은 Flan-PaLM 보다 월등히 더 나은 성능을 보여주는 것은 기본이고, 더 나아가 심지어 어떤 경우는 인간 의사 수준의 퍼포먼스를 보여준다.
또한 comprehension, retreival, reasoning capability에 대해서도 세 가지 모델을 평가하는데, 이 경우에는 Med-PaLM이 Faln-PaLM 보다는 낫지만, 인간 의사에 비해서는 약간 낮은 것을 확인할 수 있다.

반응형