[논문리뷰] Vision language models are blind - VLM은 사실 장님이었나 ?

Introduction 

최근 8개월 동안 Vision Language Models (VLMs)의 발전으로 다양한 이미지-텍스트 처리가 가능해졌습니다. VLM들은 장면 내 객체 식별, 복잡한 작업 수행 등에서 뛰어난 성능을 보이고 있습니다. 현재의 VLM 벤치마크들은 인간과 AI 간의 전반적인 격차를 측정하지만, 구체적인 시각적 한계를 지적하지는 않습니다.

이 논문은 VLM이 실제로 인간처럼 이미지를 "보는지" 검증하기 위해 로우 레벨 차원에서 시각 작업에 대한 새로운 벤치마크를 제안합니다. 이 벤치마크는 2D 기하학적 도형만을 포함하며, 최소한의 지식을 요구합니다.

연구진은 4개의 최신 VLM (GPT-4V, Gemini-1.5 Pro, Claude-3 Sonnet, Claude-3.5 Sonnet)을 8가지 간단한 시각 작업에 대해 테스트했습니다. 그 결과, VLM들이 인간에게는 매우 쉬운 작업들(예: 두 선의 교차점 확인, 원 겹침 여부 판단 등)에서 놀라울 정도로 낮은 성능을 보였습니다.

이러한 결과는 VLM의 "시각"이 근시와 같이 세부 사항을 흐릿하게 보는 것에 가깝거나, 최악의 경우 시각 정보 없이 추측하는 것과 같다는 것을 시사합니다. 이는 기존의 복잡한 벤치마크에서 VLM들이 보여준 높은 성능과는 대조적입니다.

이 연구는 VLM의 구체적인 시각적 한계를 밝히고, 향후 컴퓨터 비전 연구의 방향성을 제시하는 데 기여하고 있습니다.

 

 

Task

https://vlmsareblind.github.io/

 

본 논문에서 테스트한 7가지 주요 테스크는 다음과 같습니다:

  1. 선 교차점 세기: 두 개의 2-세그먼트 선형 함수가 교차하는 횟수를 세는 과제입니다.
  2. 두 원의 겹침/접촉 여부 판단: 두 개의 원이 겹치거나 접촉하는지 여부를 판단하는 과제입니다.
  3. 원으로 둘러싸인 글자 식별: 단어 내에서 빨간 원으로 둘러싸인 특정 글자를 식별하는 과제입니다.
  4. 겹치는 도형 세기: 올림픽 로고와 유사한 겹치는 원이나 오각형의 개수를 세는 과제입니다.
  5. 중첩된 사각형 세기: 서로 중첩된 사각형의 개수를 세는 과제입니다.
  6. 격자의 행과 열 세기: 주어진 격자(그리드)에서 행과 열의 수를 세는 과제입니다.
  7. 단일 색상 경로 따라가기: 간단한 지하철 지도에서 두 지점 사이의 단일 색상 경로의 수를 세는 과제입니다.

 

위의 링크에서는 각 Task마다 4개의 주요 VLM 모델들의 성능을 자세하게 리뷰하고 있습니다. 

각 Task들을 보면 모두 기본적인 시각적 인식 능력을 요구하며, 인간에게는 매우 쉽지만 VLM에게는 예상외로 어렵게 느껴지는 것 같습니다. 각 Task는 다양한 크기, 색상, 두께 등의 변수들을 포함하여 다각도로 모델의 성능을 평가했습니다. 

 

Task2의 결과를 한 번 확인해보고 갈까요? 

 

제공해드린 사이트로 가보면 이미지,프롬프트,결과들이 보기쉽게 정리되어 있습니다. 

각 모델들이 얼마나 잘 맞추는지에 대해서 잘 정리되어 있으니 확인해보시기 바랍니다. 

 

Insight

본 논문은 흥미로운 제목과 함께 재밌는 결과들을 제시하고 있습니다. 

하지만 VLM(Vision Language Models)은 실제로 인간이 보는 것처럼 이미지를 "보는" 것이 아니기 때문에 이러한 비교가 큰 의미가 있을지 의문이 듭니다. 모두 알다시피 모델은 이미지를 개별 픽셀(Pixel) 또는 Token의 집합으로 처리합니다. 모델은 이 픽셀 데이터를 바탕으로 학습된 패턴을 이용해 "추측" 혹은 "추론"을 하죠. 즉, 인간의 직관적인 이해와는 달리 통계적 추론에 가까운 과정을 거칩니다. 

우리가 이 과정을 '시각' 또는 '보는 것'이라고 표현하는 것은 인간의 특성을 AI에 부여하는 의인화라는 것입니다. 실제로는 매우 다른 프로세스인데, 본 연구는 이를 인간의 시각 과정과 유사하다고 잘못 해석하고 있는 것 같습니다. 

정리하자면 VLM의 작동 방식이 인간의 시각과 근본적으로 다르다는 점이고 우리가 AI 능력을 설명할 때 사용하는 언어가 때로는 오해를 불러일으킬 수 있다는 점을 지적하고 싶습니다. 

반응형