Towards Expert-Level Medical Question Answering with Large Language Models
Abstract
Med-PaLM2는 의학적인 질문-답변 테스트 셋에 대해서는 지난 버전인 Med-PaLM은 물론이고, 이제는 인간 의사에 버금가거나 어떤 측면에서는 더 좋은 성과를 보여준다는 것을 이 논문은 보여주고 있습니다. 특히 의료 분야에서 극히 중요한 정확성, 위험성, 더 나아가서는 의료 형평, 접근성, 인종, 사회적 요인 등 의료 내/외적인 측면들까지 이번 논문에서는 잘 테스트되었습니다. 또한 의료 전문가들 뿐만 아니라, 비전문가인 일반 환자의 입장에서도 이런 기술이 어떻게 받아들여질 지에 대해서도 검증되고 있습니다.
사실상 Med-PaLM2는 이제 real-world에서 활용이 가능할 정도의 퍼포먼스와 robustness를 이번 연구에서 보여주고 있습니다. 아직 완벽하지는 않지만, 인간 의사에 버금갈 정도는 됩니다. 이건 제 개인적인 추측이지만, Med-PaLM2의 다음 연구는 real-world 의료 현장에서 검증 혹은 활용을 하는 수순으로 가지 않을까 싶습니다. 이번 논문에서도 그런 언급을 잠깐씩 하고 있으며, 검증하고 있는 요소를 보면 자연스럽게 그런 방향으로 가지 않을까 합니다.
이번 연구의 한계는 결국 LLM 모델에 대한 것이므로 '언어'에만 기반한 것이라는 점 정도가 한계가 아닐까 합니다. 다른 중요한 발전 방향은 멀티모달입니다. 이 이후로 구글에서는 Med-PaLM M이라는 모델을 발표했는데, 이는 멀티모달 인공지능입니다.
Metadata
Title:: Towards Expert-Level Medical Question Answering with Large Language Models
Authors:: Karan Singhal, Tao Tu, Juraj Gottweis, Rory Sayres, Ellery Wulczyn, Le Hou, Kevin Clark, Stephen Pfohl, Heather Cole-Lewis, Darlene Neal, Mike Schaekermann, Amy Wang, Mohamed Amin, Sami Lachgar, Philip Mansfield, Sushant Prakash, Bradley Green, Ewa Dominowska, Blaise Aguera y Arcas, Nenad Tomasev, Yun Liu, Renee Wong, Christopher Semturs, S. Sara Mahdavi, Joelle Barral, Dale Webster, Greg S. Corrado, Yossi Matias, Shekoofeh Azizi, Alan Karthikesalingam, Vivek Natarajan,
Year:: 2023
ItemType:: preprint
Keywords:: Computer Science - Artificial Intelligence, Computer Science - Computation and Language, Computer Science - Machine Learning
Related::
Main ideas
- Med-PaLM 2는 객관식 의학 데이터셋에서 전임자 및 Flan-PaLM보다 향상된 성능을 보여주며, GPT-4 모델과 비슷한 수준으로 나타났습니다.
- 장문형 평가에서 Med-PaLM 2는 많은 면에서 의료 전문가의 답변과 비슷하거나 Med-PaLM보다 우수한 답변을 제공합니다.
- Med-PaLM 2의 답변은 의사 평가자와 일반인 평가자 모두 대부분의 기준에 대해 의사의 답변보다 선호되었으며, 품질이 더 높다고 평가되었습니다.
- 논문은 Med-PaLM 2의 성능이 실제 세계에서의 잠재적 응용에 충분히 견고할 수 있으며, 곧 실제 의료 환경에서의 검증으로 나아갈 수 있음을 제시합니다.
- 현재 한계는 Med-PaLM 2가 LLM으로서 언어에만 기반을 둔 것이며, 향후 멀티모달 AI로 발전할 가능성을 시사합니다. 구글에서는 이미 이러한 멀티모달 AI로 Med-PaLM M을 소개했습니다
Key points
- Med-PaLM 2는 전작 및 Flan-PaLM보다 우수하며, GPT-4와 비슷한 성능을 보임.
- 장문형 평가에서 의료 전문가와 유사한 수준의 답변 제공.
- 대부분의 평가 기준에서 의사의 답변보다 Med-PaLM 2의 답변이 선호됨.
- 실제 의료 환경에서의 검증 가능성을 시사함.
- 현재 언어 기반의 한계를 지니고 있으며, 멀티모달 AI로의 발전 가능성을 언급함
⭐ Interesting point
Large language models (LLMs) have catalyzed significant progress in medical question answering; MedPaLM was the first model to exceed a “passing” score in US Medical Licensing Examination (USMLE) style questions with a score of 67.2% on the MedQA dataset.
대규모 언어 모델(LLMs)은 의학 질문에 답하는 데 중요한 진전을 이끌었고, MedPaLM은 미국 의사 면허 시험(USMLE) 스타일 질문에 '합격' 점수를 처음으로 넘은 모델이 되었습니다. 이 모델은 MedQA 데이터셋에서 67.2%의 점수를 받았습니다.**
Med-PaLM 2 scored up to 86.5% on the MedQA dataset, improving upon Med-PaLM by over 19% and setting a new state-of-the-art.
Med-PaLM 2는 MedQA 데이터셋에서 최대 86.5%의 점수를 받아 Med-PaLM을 19% 이상 개선하고 새로운 최고 기록을 세웠습니다.
In pairwise comparative ranking of 1066 consumer medical questions, physicians preferred Med-PaLM 2 answers to those produced by physicians on eight of nine axes pertaining to clinical utility (p 0.001).
1066개의 소비자 의학 질문에 대한 쌍대 비교 순위에서, 의사들은 임상 유용성에 관한 아홉 가지 축 중 여덟 가지에서 Med-PaLM 2의 답변을 의사가 생성한 답변보다 선호했습니다(p < 0.001)**
이전 논문에 비해서 검증 방식이 더 추가되었다. 일단 객관식 질문에 답을 맞추느냐에 더해서, long-form 질문-답변에 대해서도 의사 뿐만 아니라, 일반인(lay-person)도 평가를 한다. LLM의 사용자는 궁극적으로 의료 전문가 뿐만 아니라 일반인에게도 적용되므로 일반인의 입장에서 평가하는 것도 포함한다고 볼 수 있다.
Table2에서 Adversarial(적대적인 질문) 데이터셋을 만들어서 평가했다는 점은 흥미롭다. 적대적인 질문은 일반적으로 약물, 알콜, 정신 건강, 비만, covid-19, 자살 그리고 잘못된 의학정보, 의학 격차, 인종 등 민감한 내용이 포함된 질문들이다. 또한 의료 형평성(health equality)에 특화된 데이터셋으로 의료 접근성, 의료의 퀄리티, 사회 환경 팩터 등등 민감한 내용들이 포함된다.
Med-PaLM2 모델의 개선점
기본베이스인 LLM 모델 자체가 PaLM에서 PaLM2로 업그레이드 되었다. 지난 버전의 논문처럼 instruction finetuning , few-shot, COT , self-consistency 등의 기법을 활용. 새롭게 추가되어 강조되고 있는 기법은 Ensenble refinement(ER)입니다. Med-PaLM2을 여러번 돌려서 여러 버전의 답을 얻고 이 여러 버전의 답을 다시 Med-PaLM2에 여러번 넣어서 다수결로 최종 답을 결정하는 방식. chat gpt도 사용해보면 같은 프롬프트에 대해서 다른 답변을 주는데, 의료 도메인에서도 하나의 문제 해결방식만 존재하지 않음. 이런 점을 반영한 방식이라고 생각함. 여러번 돌려서 생성된 다양한 답을 다시 LLM에 넣어서 최종 답을 결정하게 하고, 이 방식 자체도 여러번 진행함. 본 논문에서는 첫 단계를 11번 , 두 번째 단계를 33번 돌렸다고 합니다. ( ER로 얻은 답이 few-shot, COT+SC에 비해서 성능이 좋다고 합니다.)
지난 논문과는 다르게 GPT-4와 성능 비교를 한 결과도 있다. 결과를 보면 GPT-4의 성능이 Med-PaLM2와 비슷하거나 더 좋은 것을 알 수 있다.
Independent evaluation On the MultiMedQA 140 dataset, physicians rated Med-PaLM 2 answers as generally comparable to physician-generated and Med-PaLM-generated answers along the axes we evaluated (Figure 3 and Table A.2). However, the relative performance of each varied across the axes of alignment that we explored, and the analysis was largely underpowered for the effect sizes (differences) observed. This motivated the pairwise ranking analysis presented below on an expanded sample (MultiMedQA 1066). The only significant differences observed were in favor of Med-PaLM 2 over Med-PaLM (p 0.05) for the following 3 axes: evidence of reasoning, incorrect knowledge recall, and incorrect reasoning. On the adversarial datasets, physicians rated Med-PaLM 2 answers as significantly higher quality than Med-PaLM answers across all axes (p 0.001 for all axes, Figure 3 and Table A.3). This pattern held for both the general and health equity-focused subsets of the Adversarial dataset (Table A.3). Finally, lay-people rated Med-PaLM 2 answers to questions in the MultiMedQA 140 dataset as more helpful and relevant than Med-PaLM answers (p ≤ 0.002 for both dimensions, Figure 4 and Table A.4). Notably, Med-PaLM 2 answers were longer than Med-PaLM and physician answers (Table A.9). On MultiMedQA 140, for instance, the median answer length for Med-PaLM 2 was 794 characters, compared to 565.5 for Med-PaLM and 337.5 for physicians. Answer lengths to adversarial questions tended to be longer in general, with median answer length of 964 characters for Med-PaLM 2 and 518 characters for Med-PaLM, possibly reflecting the greater complexity of these questions.
최근 인공지능(AI) 시스템은 바둑부터 단백질 접힘 문제에 이르기까지 다양한 '그랜드 챌린지'에서 이정표를 달성했습니다. 의료 지식을 검색하고 이에 대해 추론하여 의사 수준으로 의학적 질문에 답하는 능력은 오랫동안 중대한 도전 과제로 여겨졌습니다. 대규모 언어 모델(LLMs)은 의학 질문에 답하는 데 중요한 진전을 이끌었고, MedPaLM은 미국 의사 면허 시험(USMLE) 스타일 질문에 '합격' 점수를 처음으로 넘은 모델이 되었습니다. 이 모델은 MedQA 데이터셋에서 67.2%의 점수를 받았습니다. 그러나 이전의 연구는 클리니션의 답변과 비교했을 때 모델의 답변이 상당히 개선될 여지가 있음을 시사했습니다. 여기에서 우리는 기본 LLM 개선(PaLM 2), 의학 분야의 파인튜닝, 그리고 앙상블 정제 접근법을 포함한 프롬프팅 전략을 활용하여 이러한 격차를 해소하는 Med-PaLM 2를 소개합니다. Med-PaLM 2는 MedQA 데이터셋에서 최대 86.5%의 점수를 받아 Med-PaLM을 19% 이상 개선하고 새로운 최고 기록을 세웠습니다. 또한, 우리는 MedMCQA, PubMedQA, MMLU 임상 주제 데이터셋에서 최고 수준에 근접하거나 이를 초과하는 성능을 관찰했습니다. 우리는 임상 응용에 관련된 여러 축을 따라 긴 형태의 질문에 대한 상세한 인간 평가를 수행했습니다. 1066개의 소비자 의학 질문에 대한 쌍대 비교 순위에서, 의사들은 임상 유용성에 관한 아홉 가지 축 중 여덟 가지에서 Med-PaLM 2의 답변을 의사가 생성한 답변보다 선호했습니다(p < 0.001). 우리는 또한 LLM의 한계를 탐구하기 위해 도입된 새로운 데이터셋의 240개의 긴 형태의 "적대적" 질문에 대한 모든 평가 축에서 Med-PaLM에 비해 유의한 개선을 관찰했습니다(p < 0.001). 실제 설정에서 이 모델의 효과를 검증하기 위한 추가 연구가 필요하지만, 이 결과들은 의학 질문에 대한 의사 수준의 성능을 향한 빠른 진전을 강조합니다.
Long-form evaluation에 대해서는 Med-PaLM2가 Med-PaLM과 의사에 버금가는 퍼포먼스를 보여준다. 다만 여기서 Med-PaLM2가 Med-PaLM에 비해서 통계적으로 유의미하게 더 좋은 퍼포먼스를 보여주지는 못한다. 그래서 후술할 방식, 아예 1:1로 답변을 비교해서 선호도를 보는 방식으로 추가적인 평가를 하게된다. 흥미로운 점은 적대적 질문에 대한 long-form evaluation 파트에서는 Med-PaLM2가 Med-PaLM에 비해서 대부분의 기준에 통계적으로 유의미한 더 나은 답변을 보여준다. 이는 '일반'적대적인 질문과 '의료 형평성'에 대한 적대적 질문에 대해서 모두 마찬가지였다.
추가적으로 Med-PaLM, Med-PaLM2, 의사의 답변을 1:1로 비교하여 어느 답변을 더 선호하는가를 보았습니다. 흥미롭게도 Med-PaLM2의 답변이 의사의 답변에 비해서 대부분의 경우 더 퀄리티가 높은 것으로 선호되었습니다.의사 평가자들은 better reflect consensus, better knowledge recall, better reasoning, more inaccurate/irrelevant information, greater extent of harm 등등의 측면에서, Med-PaLM2가 의사보다 더 낫다고 평가하였습니다. 일반인 평가자들은 Med-PaLM2의 답변이 의사의 답변에 비해서 질문의 의도에 대한 답을 비슷한 수준으로 잘 내어놓으며, 오히려 더 큰 도움이 된다고 평가하였습니다.