[논문리뷰] Vision language models are blind - VLM은 사실 장님이었나 ?
Introduction 최근 8개월 동안 Vision Language Models (VLMs)의 발전으로 다양한 이미지-텍스트 처리가 가능해졌습니다. VLM들은 장면 내 객체 식별, 복잡한 작업 수행 등에서 뛰어난 성능을 보이고 있습니다. 현재의 VLM 벤치마크들은 인간과 AI 간의 전반적인 격차를 측정하지만, 구체적인 시각적 한계를 지적하지는 않습니다.이 논문은 VLM이 실제로 인간처럼 이미지를 "보는지" 검증하기 위해 로우 레벨 차원에서 시각 작업에 대한 새로운 벤치마크를 제안합니다. 이 벤치마크는 2D 기하학적 도형만을 포함하며, 최소한의 지식을 요구합니다.연구진은 4개의 최신 VLM (GPT-4V, Gemini-1.5 Pro, Claude-3 Sonnet, Claude-3.5 Sonnet)을 8가..