Processing math: 100%
본문 바로가기
논문 리뷰/Multi-Modal

Visual SKETCHPAD: Sketching as a Visual Chain of Thought for Multimodal Language Models

by 박사개구리 2025. 1. 21.

0. Abstract

  • 사람은 추론 능력 향상을 위해 그림을 그림
    • 예시: 기하학 문제를 풀 때 추가적인 선을 그림, 지도를 볼 때 표시를 하거나 동그라미를 그림, …
  • 그러나 이런 행동은 현재의 멀티모달 언어 모델 (LMs)에는 사용하지 않음
    • 현재의 CoT (Chain-of-Thought)과 도구 사용 (tool-use)은 중간 추론 과정에서 텍스트만을 사용
  • 본 논문에서는 SKETCHPAD 기법을 제안
    • LM이 스스로 그린 시각적인 내용을 기반으로 계획 (planning)과 추론 (reasoning)을 수행
    • text-to-image 모델을 사용하여 LM이 그릴 수 있게 한 기존 기법과 다르게 SketchPad는 LM이 선, 박스, 마크 등을 그리도록 함 → 사람이 그림을 그리고 더 나은 추론을 하는 것과 유사
    • 또한 SKETCHPAD는 스케치 과정에서 전문적인 비전 모델을 사용
      • 예시: 객체 탐지 모델을 사용하여 바운딩 박스를 그림, segmentation 모델을 사용하여 마스크를 그림
  • 다양한 수학 문제 (기하, 함수, 그래프, 체스 )와 복잡한 시각 추론 문제를 통해 실험 수행
  • SKETCHPAD는 모든 문제에서 스케치를 하지 않는 강력한 모델의 성능을 능가 → 수학에서는 12.7%, 시각 문제에서는 8.6% 정도 향상된 성능을 보임
  • GPT-4o에 SketchPad를 적용한 경우 모든 문제에서 최고의 성능을 보임 → V*Bench (80.3%), BLINK spatial reasoning (83.9%), visual correspondence (80.8%)

1. Introduction

  • 스케치는 사람의 기본적인 행동이자 의사소통, 아이디어, 문제 해결 등 다양한 용도를 위한 도구로 사용됨
    • 스케치는 시각-공간적인 아이디어를 직접적으로 제공할 수 있다는 장점이 있음

  • 스케치 사용의 예시 (그림 1 참고)
    • 학교에서 아이들에게 기하학을 가르칠 때 추가적인 선을 그림
    • 엔지니어들이 프로토타입을 전달할 때 도움을 줌
    • 건축가들이 청사진을 생성
  • 멀티모달 언어 모델 (LMs)의 성능이 향상되면서 위와 같은 문제들을 풀 수 있을 것으로 기대됨
    • 인기있는 벤치마크는 기하학에 대한 문제 (e.g. Geometry3K), 복잡한 수학 문제 (e.g. IsoBench), 등을 포함
    • 이런 벤치마크들에서 모델은 도형에 대한 그림이 주어지고 도형에 대한 기초 지식이나 공간적인 이해를 요구하는 질문을 받음 → 추가적인 선 같은 스케치들이 추론 능력을 향상시킬 수 있음
  • 컴퓨터 비전 문제들에 대한 벤치마크의 경우도 유사한 경향을 가짐
    • 전문적인 비전 모델들이 이미지 자체에 그림을 그리는 것으로 생각할 수 있음
    • 예시 → 객체 탐지 모델이 물체 주변에 박스를 그리거나 깊이 추정 모델이 깊이에 따른 컬러맵을 제공
    • 최근에 공개된 BLINK 벤치마크는 이런 시각적인 스케치를 사용할 때 큰 이득이 있음
    • 유사하게 V* 벤치마크는 이미지 crop을 통한 부분적인 추론을 통해 답을 찾음
    • 하지만 최근의 LM들은 문제를 풀 때 이런 스케치 기반의 추론을 사용하기 위한 체계 (구조)가 부족
  • 본 논문에서는 Visual SKETCHPAD 기법을 제안
    • 멀티모달 LM이 문제에 대한 추론을 위해 중간 단계에서 스케치를 생성하기 위한 도구를 사용하는 프레임워크
      • 예를 들어 **그림 1 (a)**에서 삼각형 세 각의 합이 180도라는 것을 증명하기 위해 SKETCHPAD는 에이전트가 추가적인 선을 그려서 도형을 변경할 수 있도록 함 → 이 선이 기하 문제를 풀기 위한 핵심적인 정보 제공
    • 또한 SKETCHPAD는 컴퓨터 비전을 위한 모델의 공간적인 추론 성능도 향상
      • 예를 들어 **그림 1 (b)**에서 이미지 안에 쿠키가 다른 쿠키 위에 올라가 있는지 판단하기 위해 모델은 먼저 깊이에 대한 추론을 수행 → 이는 쿠키들이 서로 다른 깊이에 있으므로 쿠키들이 겹쳐있다는 것을 알려줌
  • SKETCHPAD가 다양한 수학과 컴퓨터 비전 문제에 효과적이라는 성능 검증을 수행
    • 수학문제 → (1) 기하학, (2) 수학적 함수, (3) 그래프 알고리즘, (4) 전략 게임 사용
      • SKETCHPAD는 Matplotlib 코드를 생성하여 주어진 도형에 대한 추가적인 선을 생성 → 그림 1 (a)
      • 또한 수학 함수 문제에서는 함수에 대한 그래프를 그려서 특성을 추론할 수 있음 → 그림 1 (b)
      • 이런 결과들은 오직 언어만을 입력으로 사용할 때보다 추론 능력을 크게 향상시킴
      • 위 4개의 수학 문제에 대해 SKETCHPAD는 GPT-4o에 대해 평균 11.2%의 성능 향상을 보임
    • 컴퓨터 비전 문제 → (1) 깊이 (depth), (2) 공간적 추론, (3) 직쏘 (jigsaw), (4) 시각적 연관성 (visual correspondence), (5) 시멘틱 연관성 (semantic correspondence), (6) MMVP, (7) V* 벤치마크 사용
      • SKETCHPAD는 모델이 segmentation 마스크, 이미지 자르기, 바운딩 박스 그리기, 이미지 영역 줌하기, 이미지 오버레이 (overlay image) 등을 생성하도록 함
      • SKETCHPAD는 모든 7개의 문제에 대해 성능 향상을 보임 → V* 벤치마크에서 14.3%, BLINK의 깊이와 시멘틱 대응 문제에 대해서는 9.7%의 향상을 보임
    • 마지막으로 모델이 생성하는 계획을 사람이 생성하는 계획과 비교하여 SKETCHPAD의 효율성을 보임
      • 해당 계획들은 잘 일치되며 유사한 추론 패턴을 보임

2. Visual SKETCHPAD

  • Visual SKETCHPAD 기법을 소개 → 멀티모달 LM이 중간 추론 스텝으로 그림을 그리고 추가적인 추론에 해당 그림을 사용하는 일반적인 프레임워크

  • 그림 2는 SKETCHPAD가 어떻게 동작하는지 예시를 보여줌
    • 멀티모달 쿼리가 주어졌을 떄 SKETCHPAD 에이전트는 쿼리를 위한 스케치 계획을 생성 (Thought)
    • 그리고 프로그램을 통해 시각적 스케치를 생성 (Action)
    • 스케치를 분석 (Observation)하고 쿼리에 대한 최종 응답을 도출

2.1. Overview of SKETCHPAD

  • SKETCHPAD 에이전트는 환경과 상호작용하는 반복적 상호작용을 수행하여 문제를 해걸
    • 시각적 요소와 텍스트 요소가 포함된 멀티모달 쿼리 q가 주어졌을 때, 모델은 thought, action, observation의 시리즈를 통해 응답에 필요한 정보들을 수집
    • 각 스텝 t에서 모델은 3개의 핵심 스텝을 수행
      • Thought
        • 모델이 쿼리와 이전의 thoughts, actions, observations를 포함하는 현재의 context ct를 분석
        • 다음 action을 위한 thought plan pt 생성
        • 예시: 그림 2의 a에서 쿼리 q가 “EIC를 찾아라”라고 주어지는 경우 thought plan p1BD와 평행한 추가적인 선 IX를 그려서 문제를 돕는 시각적인 스케치를 생성
      • Action
        • Thought plan에 기반하여 모델은 action at를 수행 → 시각적, 텍스트적 내용을 다룰 수 있음
        • 기하학 예시: 제안된 추가적인 선의 thought을 인지하고 모델이 파이썬 코드를 생성하여 원본 도형을 수정하도록 함 → 생성된 코드를 컴파일 및 실행됨
      • Observation
        • action at에 기반하여 SKETCHPAD의 환경은 새로운 observation ot+1을 반환 → 기하학 예제에서는 추가적인 선이 그려진 새로운 도형
        • 멀티모달 context는 ct+1=(ct,pt,at,ot+1)로 업데이트
    • 멀티 턴 상호작용 과정은 시간 스텝 T까지 지속 → 모델이 context CT로부터 쿼리에 대해 답변할만한 충분한 정보를 수집했다고 판단하는 때
      • 이 시점에서 모델은 특별한 Terminate라는 action을 생성하고 답변을 제공
  • 기존 연구의 경우 LM이 텍스트 기반의 observation과 action 만을 수정하고 생성했지만 SKETCHPAD는 모델이 멀티모달 observation ot, actions at를 통해 시각적, 텍스트적 내용을 모두 다루도록 함
    • 시각적 스케치를 기반으로 하는 계획과 추론으로 문제 해결 능력 향상

2.2. Sketching via Code Generation

  • SKETCHPAD의 핵심요소는 스케치 → LM이 시각적 스케치를 생성하고 특별한 시각 모델이나 파이썬 plotting 패키지를 실행하여 수행

Program Generation

  • ViperGPT나 VPD와 유사하게 SKETCHPAD는 LM이 코드 생성을 통해 스케치를 하도록 함
  • 프롬프트를 통해 사용 가능한 도구들에 대한 자세한 설명을 제공 → LM이 제공된 도구를 기반으로 코드 블락에 파이썬 코드를 생성 → 실행 후 새로운 이미지와 텍스트 출력을 생성
  • 특별한 시각화 도구를 통해 LM이 다음 observation ot+1의 스케치 이미지를 시각화 하도록 함

Modules for Sketching

  • SKETCHPAD는 스케치를 수행하기 위한 다양한 도구를 제공
    • 수학 문제: matplotlib이나 networkx 같은 plotting을 위한 파이썬 패키지 사용
    • 비전 문제: 특별한 비전 모델을 스케치 과정에 사용 → 이미지에 바운딩 박스를 그리는 객체 탐지 도구, 마킹을 위한 segmentation 등을 사용

3. Sketching to Solve Math Problems

  • 4개의 복잡한 수학 문제에서 SKETCHPAD 실험 수행
      1. 기하학, 2) 수학 함수, 3) 그래프 알고리즘 4) 게임 전략
  • 스케치 능력을 LM에 결합한 것이 이런 수학 문제들에 대해 큰 성능 향상을 가지고 왔으며 State-of-the-art 성능을 달성

기하학 (Geometry Problems)

  • 기하학의 도형에서 추가적인 선을 그리는 것은 문제 해결에 종종 큰 도움이 됨
    • 예를 들어 **그림 2 (a)**를 보면 EIC를 찾아야 할 때 LM은 BD와 평행한 추가적인 선 IX를 그리도록 계획하고 그 선의 특성을 통해 EIC를 결정
    • SKETCHPAD의 효과를 평가하기 위해 Geometry3K 데이터셋의 문제들 사용
  • SKETCHPAD의 선 그리기 수행 과정
    • 기하학적 도형과 이에 대한 matplotlib 코드를 입력으로 받음
    • 모델이 추가적인 선을 그리기 위해 변경된 코드를 제안
    • 이를 실행하여 도형에 선을 추가한 결과를 시각화

수학 함수 (Mathematical Functions)

  • IsoBench 데이터셋 중 수학 함수와 관련된 2개의 문제에 집중
    • Classifying parity
      • 함수가 짝수 (even) 함수인지, 홀수 (odd) 함수인지, 둘다 아닌지 판단하는 것이 목표
      • 짝수 함수는 모든 x에 대해 f(x)=f(x)를 만족하는 함수, 홀수 함수는 모든 x에 대해 f(x)=f(x)를 만족하는 함수
    • Identifying convexity / concavity
      • 함수가 오목 함수인지, 볼록 함수인지 판단하는 것이 목표
  • SKETCHPAD는 시각적으로 함수를 스케치하여 문제를 더욱 효율적으로 해결
    • 예를 들어 **그림 1 (b)**와 같이 함수가 오목 함수인지, 볼록 함수인지 판단하기 위해 SKETCHPAD는 matplotlib를 통해 함수에 대한 그래프를 그리고 함수에 대한 모양을 시각적으로 검사

그래프 알고리즘 (Graph Algorithms)

  • 컴퓨터 네트워크, 운송 시스템 같은 많은 실제 문제들이 그래프 문제로 정의될 수 있음
  • 본 논문에서는 SKETCHPAD를 IsoBench의 3가지 데이터로 평가
    • Graph connectivity: 그래프의 지점 사이에 경로가 존재하는지 결정
    • Maximum flow: 네트워크를 통해 엣지의 용량 제한을 고려하면서 source vertex에서 sink vertex로 전달될 수 있는 flow의 최대량을 찾는 것이 목표
    • Graph isomorphism: 두개의 그래프가 구조적으로 동일한지 테스트
  • **그림 2(b)**와 같이 그래프의 인접 행렬이 주어졌을 때 SKETCHPAD는 파이썬의 networkx 라이브러리를 통해 실제 그래프 구조를 그릴 수 있으며 이를 통해 직접적으로 그래프의 특성과 관계에 대한 시각적 추론이 가능

게임 전략 (Game Strategies)

  • 체스게임은 다양한 형식으로 나타낼 수 있음 → 시각적인 보드의 상태, 이동에 대한 텍스트 정의
    • 오직 이동에 대해서 텍스트로만 주어졌을 때 SKETCHPAD는 체스 판을 시각적으로 표현하여 위치와 전략에 대한 분석을 할 수 있음
    • IsoBench 데이터셋의 winnder identification task를 통해 성능 평가 → 보드의 최종 상태를 기반으로 체스 게임의 결과를 찾는 것이 목표 (흰색이 이김, 검정색이 이김, 비김)
    • 시각적인 보드를 생성하기 위해 SKETCHPAD는 파이썬의 chess 라이브러리를 사용 → 체스의 Forsyth-Edwards Notation (FEN)에 따라 보드를 그림

3.1. Results

  • 멀티모달 LM에 대해 SKETCHPAD의 성능을 평가 → gpt-4-turbo-2024-04-09, gpt-4o-2024-05-13 포함
  • 성능 비교 모델들
    • Visual Sketchpad를 사용하지 않은 베이스라인들
    • 다른 클로즈 소스 모델들 (e.g. Claude 3, Gemini-Pro)
    • 오픈소스 모델들 (e.g. Mistral, LLaMA-2 70B)

Main Results

  • 표 1에서 볼 수 있듯이 SKETCHPAD는 모든 문제에 대해서 기본 모델보다 성능이 향상됨
    • GPT-4o의 경우 평균 11.2%, GPT-4 Turbo의 경우 평균 23.4%의 성능 향상을 보임
    • 특히 maximum flow, connectivity 같은 그래프 알고리즘 문제에서 큰 성능 향상 달성
    • 또한 SKETCHPAD는 수학 함수 부분에서도 큰 성능 향상을 달성했으며 게임 전략 에서도 3% ~ 10% 정도의 성능 향상을 확인
    • 전체적인 결과를 통해 다양한 도메인에서 멀티모달 언어 모델의 추론 능력을 향상시킨다는 SKETCHPAD의 효율성을 확인할 수 있음

4. Sketching to Solve Computer Vision Tasks

  • 복잡한 비전 추론 문제에 SKETCHPAD를 통한 실험을 수행
  • 최근의 연구인 BLINK는 멀티모달 LM에서 많은 핵심적인 시각 추론 능력이 부족하다는 것을 보임
  • 또한 SoM은 segmentation 마스크를 이미지에 그리는 것이 GPT-4V의 강력한 시각적 grounding 능력을 향상시킨다는 것을 보임
  • SKETCHPAD는 이런 아이디어들을 일반화하여 작용 → 전문적인 비전 모델을 사용하여 스케치 한 정보를 LM이 사용하도록 함
  • SKETCHPAD는 모든 7개의 문제에 대해 시각적 추론 능력을 향상 시켰으며 새로운 SOTA 성능을 달성

Tasks

  • 복잡한 시각적 추론 문제를 다양하게 적용
    • V* Bench: 이미지의 작은 대상에 대한 질문을 포함
    • MMVP: Eyes Wide Shut의 벤치마크, CLIP 기반 멀티모달 LM의 시각적인 단점을 나타내기 위해 특별히 디자인 된 시각적 질문들을 포함하는 벤치마크
    • BLINK: 사람에게는 쉽지만 멀티모달 LM에게는 특별히 어려운 시각적 인지 문제로 구성 → 상대적인 깊이, 지역적인 추론, 직소 퍼즐, 시각적 연관성, 시멘틱 연관성 문제 등으로 구성

4.1. Vision Specialists as Sketching Tools in SKETCHPAD

  • LM이 스케치를 위해 다음과 같은 모듈들을 사용하여 이미지를 수정 → LM이 호출할 수 있도록 해당 모듈들을 파이썬 함수를 랩핑

Detection

  • 이미지와 간단한 텍스트 쿼리 (e.g. cat)를 입력으로 받아서 open-vocabulary 탐지 모델인 Grounding-DINO를 실행하여 탐지된 바운딩 박스를 이미지에 그림
  • 또한 바운딩 박스의 좌표도 반환

Segmentation

  • 이미지를 입력으로 받고 다양한 색의 segmentation 마스크가 그려진 이미지를 반환
  • 각 마스크는 숫자 라벨을 가짐
  • 사용한 Segmentation 모델 → SegmentAnything, Semantic-SAM

Depth Estimation

  • 이미지를 입력으로 받아서 깊이 맵 (depth map)을 반환 → DepthAnything 모델 사용

Visual Search via Sliding Window

  • 사람이 이미지에서 작은 아이템을 탐색하는 과정을 모방
  • 텍스트 쿼리를 입력으로 받고 이미지에 대해 슬라이딩 윈도우를 실행
  • 윈도우 크기는 이미지 크기의 1/3로 설정하고 스텝 사이즈는 이미지 크기의 2/9로 설정 → 이에 따라 4 x 4 = 16 윈도우 생성
  • 쿼리가 탐지된 이미지 패치들의 시퀀스를 반환

Other Image Manipulation Modules

  • 사용하는 다른 모듈들
    • Zoom-in and crop: 이미지와 바운딩 박스를 입력으로 받아서 박스 안의 이미지를 반환
    • Overlay Images: 두개의 이미지와 알파 값을 입력으로 받고 겹쳐진 이미지 (overlayed image)를 반환

4.2. Results

  • 복잡한 시각적 추론 문제에 대해서도 기존 수학 문제와 동일한 멀티모달 LM을 사용하여 실험 수행

Main Results

  • 표 2는 SKETCHPAD와 베이스라인들의 성능에 대한 결과를 보여줌

 

  • SKETCHPAD는 모든 문제에 대해 기반 모델의 성능을 향상시킴 → GPT-4o는 모든 문제에 대해 SoTA 성능 달성
  • 특히 V* Bench에서 효과적 → GPT-4 Turbo의 경우 18.5%, GPT-4o의 경우 14.3% 성능 향상 달성 → 기존 SoTA인 SEAL의 성능을 능가
  • BLINK 문제에서는 SKETCHPAD가 GPT-4 Turbo에 대해서는 6.6%, GPT-4o에 대해서는 9% 성능 향상 달성
  • 흥미로운 것은 SKETCHPAD의 모든 모듈이 단일 이미지에 대해 적용되지만 LM은 다수의 이미지를 사용하는 직소 퍼즐, 시각적 연관성, 시멘틱 연관성 등에 대해서도 성능 개선을 달성
  • 마지막으로 GPT-4o에 SKETCHPAD를 사용했을 때 GPT-4 Turbo에 SKETCHPAD를 사용한 것보다 보다 강력한 멀티모달 능력을 가짐
    • 예를 들어 상대적 깊이를 파악하는 문제에서 GPT-4 Turbo는 2.4% 정도의 정확도 향상을 달성했지만 GPT-4o는 12.1%의 정롹도 향상 달성
    • GPT-4o가 SKETCHPAD가 생성한 깊이 맵을 더 잘 이해한다고 생각할 수 있음
  • 전체적으로 본 결과는 SKETCHPAD가 시각적인 추론 문제에서 효과적으로 멀티모달 LM의 성능을 향상시킨다는 것을 보임

How Many Times is Each Vision Specialist Used?

  • 각 문제에서 전문적인 비전 모델이 몇번 호출되었는지 확인 → 그림 4 참고

  • 가장 큰 성능 향상을 달성한 4개의 문제 선택 → V* Bench, 깊이, 관계 추론, 시멘틱 연관성
  • 위의 그림을 통해 2가지를 확인할 수 있음
    1. 전문적인 비전 모델의 사용은 문제의 종류에 의존적이며 두개의 LM이 유사한 도구를 사용함
      • 예를 들어 작은 물체를 탐지해야하는 V*의 경우 LM이 주로 탐지, 슬라이딩 윈도우, 줌인 등을 사용 → 사람이 탐색하는 것과 유사
      • 상대적인 깊이 문제에서는 두 모델 모두 깊이 추정 사용
      • 위치 추론에 대해서는 LM이 탐지와 segmentation을 사용하여 시각적 추론 수행
    2. GPT-4o가 더 많은 도구를 사용하는 경향이 있음
      • GPT-4o는 GPT-4o Turbo 보다 더 많은 전문 비전 모델을 사용
      • 또한 두 모델은 시멘틱 연관성 문제에서 다른 행동을 보임
        • GPT-4o는 40%를 segmentation 모듈을 사용했지만 GPT-4 Trubo는 20$ 이하로 사용
        • 이것이 해당 문제에서 두 LM의 성능 차이 (58.3% vs. 42.4%)를 보여주는 것으로 생각됨

Comparison with Visual Prompting and Tool-use Frameworks

  • 표 3에서는 SKETCHPAD를 시각적 프롬프팅을 수행하는 SoM, LLM tool-use 프레임워크 Visprog과 성능 비교

  • 공정한 비교를 위해 다음 사항들을 수행
    • SoM 이미지로 LM을 프롬프팅 하는 것이 성능을 저하 시킨다는 것을 확인 → 시각적 프롬프트가 모델을 혼동시킴 → 이에 따라 LM에 원본 이미지와 SoM 이미지를 함께 프롬프팅 → SoM + orig
    • VisProg에서 LM을 VQA 모듈로 대체
    • 베이스 라인들은 단일 이미지 문제를 위한 기법들 → SKETCHPAD를 해당 문제에만 적용 후 비교
  • 표 3을 통해 SKETCHPAD가 모든 문제에서 일관적인 성능 향상을 보이는 유일한 기법임을 알 수 있음
    • SoM은 저자의 보고대로 지역적 추론 능력은 성능 향상이 있었으나 다른 문제에서 성능이 저하됨
    • Visprog는 모든 문제에서 베이스 LM보다 성능이 저하됨

5. Analysis and Discussion

Why dos SKETCHPAD work?

  • 왜 SKETCHPAD는 잘할까??
    • 먼저 비전은 언어를 보강할 수 있는 다양한 정보들을 제공
      • 깊이나 segmentation의 경우 언어로는 쉽게 표현하기가 어려움
      • 또한 사람은 다양한 시각적 기법을 통해 직접적, 효율적으로 정보를 수집 → SKETCHPAD 또한 사람처럼 이런 시각적 기법을 사용하는 것
    • SKETCHPAD는 멀티모달 LM이 중간에 취득한 시각적 결과물들을 이용하여 계획하고 추론하도록 함
      • 사전에 정의된 계획을 수행하던 기존 연구들과 다르게 SKETCHPAD는 더욱 오류에 유연하고 강인
      • 예를 들어 객체 탐지에서 오류가 발생하는 경우 LM이 바운딩 박스에서 에러가 있는 것을 확인하고 계획을 변경할 수 있음
    • 멀티모달 LM이 사람과 유사하게 계획을 수행
      • 사람과 유사한 추론 과정을 통해 데이터를 분석
      • 아래에서 더 자세하게 살펴볼 것

Do LMs have the Same Plans as Humans?

  • 모든 기하학 문제와 각 비전 문제 중 10 문제씩을 사람에게 풀도록 함
  • 기하학 문제에서는 사람도 GPT-4o의 80%가 그랬던 것처럼 추가적인 선을 그림
  • 비전 문제에서는 2명의 사람이 GPT-4o의 전체 계획을 평가 → 92.8%가 유효하다고 평가
  • 대부분의 에러는 전문적인 비전 모델이 실패하여 발생 (e.g. 탐지 모델이 탐지 실패)하거나 계획이 필요하지 않은 단순한 질의에서 발생

Experiments on Open-source Models

  • 도형, 그래프, 추가적인 선을 그리는 것이 오픈소스 멀티모달 LM에도 유효할까?
  • 이를 위해 표4의 실험을 수행

  • 오픈소스 LLaVA-NEXT 모델에 적용 → SKETCHPAD를 적용하는 경우 수학 문제에서 성능 개선을 보이며 수학적인 추론을 향상시키는 것을 알 수 있음

6. Conclusion

  • Visual SKETCHPAD 기법 제안 → 문제에 대한 추론을 위해 이미지에 스케치를 생성하는 도구를 사용하여 멀티모달 LM에 제공
    • 복잡한 수학 문제에서 추론을 통해 큰 성능 향상 달성
    • 시각적인 추론 문제에 대해 전문적인 비전 모델을 사용하여 LM이 해당 모델의 추론 결과 (e.g. 객체 탐지 모델의 바운딩 박스, segmentation 모델의 마스크, …) 를 사용 → 계획 및 추론을 수행
  • SKETCHPAD의 실험 결과 모든 문제에서 성능 향상을 달성하며 SoTA 성능 확보
  • LM이 더욱 사람과 같은 멀티모달 지능을 가지도록 함

Limitations and Future Directions

  • 먼저 SKETCHPAD는 바로 언어 토큰을 출력하는 것에 비해 더 많은 계산 자원을 요구
  • 두번째로 본 기법은 상용 LM에 적용하는 것에 집중 했음 → 이후 SKETCHPAD의 학습 쪽에 대해 더 살펴볼 예정
  • 마지막으로 SKETCHPAD는 다양한 분야에 응용될 수 있음
    • 로봇 문제를 예로 들어보면 SKETCHPAD를 통해 복잡한 공간에서 작은 물체를 찾고 → 관심 물체를 표시한 후 → 카메라를 줌인하거나 경로 생성을 돕기 위해 깊이 추정을 사용할 수 있음
                          •