0. Abstract

사람은 추론 능력 향상을 위해 그림을 그림
- 예시: 기하학 문제를 풀 때 추가적인 선을 그림, 지도를 볼 때 표시를 하거나 동그라미를 그림, …
그러나 이런 행동은 현재의 멀티모달 언어 모델 (LMs)에는 사용하지 않음
- 현재의 CoT (Chain-of-Thought)과 도구 사용 (tool-use)은 중간 추론 과정에서 텍스트만을 사용
본 논문에서는 SKETCHPAD 기법을 제안
- LM이 스스로 그린 시각적인 내용을 기반으로 계획 (planning)과 추론 (reasoning)을 수행
- text-to-image 모델을 사용하여 LM이 그릴 수 있게 한 기존 기법과 다르게 SketchPad는 LM이 선, 박스, 마크 등을 그리도록 함 → 사람이 그림을 그리고 더 나은 추론을 하는 것과 유사
- 또한 SKETCHPAD는 스케치 과정에서 전문적인 비전 모델을 사용
  - 예시: 객체 탐지 모델을 사용하여 바운딩 박스를 그림, segmentation 모델을 사용하여 마스크를 그림
다양한 수학 문제 (기하, 함수, 그래프, 체스 )와 복잡한 시각 추론 문제를 통해 실험 수행
SKETCHPAD는 모든 문제에서 스케치를 하지 않는 강력한 모델의 성능을 능가 → 수학에서는 12.7%, 시각 문제에서는 8.6% 정도 향상된 성능을 보임
GPT-4o에 SketchPad를 적용한 경우 모든 문제에서 최고의 성능을 보임 → V*Bench (80.3%), BLINK spatial reasoning (83.9%), visual correspondence (80.8%)

1. Introduction

스케치는 사람의 기본적인 행동이자 의사소통, 아이디어, 문제 해결 등 다양한 용도를 위한 도구로 사용됨
- 스케치는 시각-공간적인 아이디어를 직접적으로 제공할 수 있다는 장점이 있음

스케치 사용의 예시 (그림 1 참고)
- 학교에서 아이들에게 기하학을 가르칠 때 추가적인 선을 그림
- 엔지니어들이 프로토타입을 전달할 때 도움을 줌
- 건축가들이 청사진을 생성

멀티모달 언어 모델 (LMs)의 성능이 향상되면서 위와 같은 문제들을 풀 수 있을 것으로 기대됨
- 인기있는 벤치마크는 기하학에 대한 문제 (e.g. Geometry3K), 복잡한 수학 문제 (e.g. IsoBench), 등을 포함
- 이런 벤치마크들에서 모델은 도형에 대한 그림이 주어지고 도형에 대한 기초 지식이나 공간적인 이해를 요구하는 질문을 받음 → 추가적인 선 같은 스케치들이 추론 능력을 향상시킬 수 있음
컴퓨터 비전 문제들에 대한 벤치마크의 경우도 유사한 경향을 가짐
- 전문적인 비전 모델들이 이미지 자체에 그림을 그리는 것으로 생각할 수 있음
- 예시 → 객체 탐지 모델이 물체 주변에 박스를 그리거나 깊이 추정 모델이 깊이에 따른 컬러맵을 제공
- 최근에 공개된 BLINK 벤치마크는 이런 시각적인 스케치를 사용할 때 큰 이득이 있음
- 유사하게 V* 벤치마크는 이미지 crop을 통한 부분적인 추론을 통해 답을 찾음
- 하지만 최근의 LM들은 문제를 풀 때 이런 스케치 기반의 추론을 사용하기 위한 체계 (구조)가 부족
본 논문에서는 Visual SKETCHPAD 기법을 제안
- 멀티모달 LM이 문제에 대한 추론을 위해 중간 단계에서 스케치를 생성하기 위한 도구를 사용하는 프레임워크
  - 예를 들어 **그림 1 (a)**에서 삼각형 세 각의 합이 180도라는 것을 증명하기 위해 SKETCHPAD는 에이전트가 추가적인 선을 그려서 도형을 변경할 수 있도록 함 → 이 선이 기하 문제를 풀기 위한 핵심적인 정보 제공
- 또한 SKETCHPAD는 컴퓨터 비전을 위한 모델의 공간적인 추론 성능도 향상
  - 예를 들어 **그림 1 (b)**에서 이미지 안에 쿠키가 다른 쿠키 위에 올라가 있는지 판단하기 위해 모델은 먼저 깊이에 대한 추론을 수행 → 이는 쿠키들이 서로 다른 깊이에 있으므로 쿠키들이 겹쳐있다는 것을 알려줌
SKETCHPAD가 다양한 수학과 컴퓨터 비전 문제에 효과적이라는 성능 검증을 수행
- 수학문제 → (1) 기하학, (2) 수학적 함수, (3) 그래프 알고리즘, (4) 전략 게임 사용
  - SKETCHPAD는 Matplotlib 코드를 생성하여 주어진 도형에 대한 추가적인 선을 생성 → 그림 1 (a)
  - 또한 수학 함수 문제에서는 함수에 대한 그래프를 그려서 특성을 추론할 수 있음 → 그림 1 (b)
  - 이런 결과들은 오직 언어만을 입력으로 사용할 때보다 추론 능력을 크게 향상시킴
  - 위 4개의 수학 문제에 대해 SKETCHPAD는 GPT-4o에 대해 평균 11.2%의 성능 향상을 보임
- 컴퓨터 비전 문제 → (1) 깊이 (depth), (2) 공간적 추론, (3) 직쏘 (jigsaw), (4) 시각적 연관성 (visual correspondence), (5) 시멘틱 연관성 (semantic correspondence), (6) MMVP, (7) V* 벤치마크 사용
  - SKETCHPAD는 모델이 segmentation 마스크, 이미지 자르기, 바운딩 박스 그리기, 이미지 영역 줌하기, 이미지 오버레이 (overlay image) 등을 생성하도록 함
  - SKETCHPAD는 모든 7개의 문제에 대해 성능 향상을 보임 → V* 벤치마크에서 14.3%, BLINK의 깊이와 시멘틱 대응 문제에 대해서는 9.7%의 향상을 보임
- 마지막으로 모델이 생성하는 계획을 사람이 생성하는 계획과 비교하여 SKETCHPAD의 효율성을 보임
  - 해당 계획들은 잘 일치되며 유사한 추론 패턴을 보임

2. Visual SKETCHPAD

Visual SKETCHPAD 기법을 소개 → 멀티모달 LM이 중간 추론 스텝으로 그림을 그리고 추가적인 추론에 해당 그림을 사용하는 일반적인 프레임워크

그림 2는 SKETCHPAD가 어떻게 동작하는지 예시를 보여줌
- 멀티모달 쿼리가 주어졌을 떄 SKETCHPAD 에이전트는 쿼리를 위한 스케치 계획을 생성 (Thought)
- 그리고 프로그램을 통해 시각적 스케치를 생성 (Action)
- 스케치를 분석 (Observation)하고 쿼리에 대한 최종 응답을 도출

2.1. Overview of SKETCHPAD

SKETCHPAD 에이전트는 환경과 상호작용하는 반복적 상호작용을 수행하여 문제를 해걸
- 시각적 요소와 텍스트 요소가 포함된 멀티모달 쿼리 $q$ 가 주어졌을 때, 모델은 thought, action, observation의 시리즈를 통해 응답에 필요한 정보들을 수집
- 각 스텝 t에서 모델은 3개의 핵심 스텝을 수행
  - Thought
    - 모델이 쿼리와 이전의 thoughts, actions, observations를 포함하는 현재의 context $c_t$ 를 분석
    - 다음 action을 위한 thought plan $p_t$ 생성
    - 예시: 그림 2의 a에서 쿼리 $q$ 가 “ $\angle EIC$ 를 찾아라”라고 주어지는 경우 thought plan $p_1$ 은 $BD$ 와 평행한 추가적인 선 $IX$ 를 그려서 문제를 돕는 시각적인 스케치를 생성
  - Action
    - Thought plan에 기반하여 모델은 action $a_t$ 를 수행 → 시각적, 텍스트적 내용을 다룰 수 있음
    - 기하학 예시: 제안된 추가적인 선의 thought을 인지하고 모델이 파이썬 코드를 생성하여 원본 도형을 수정하도록 함 → 생성된 코드를 컴파일 및 실행됨
  - Observation
    - action $a_t$ 에 기반하여 SKETCHPAD의 환경은 새로운 observation $o_{t+1}$ 을 반환 → 기하학 예제에서는 추가적인 선이 그려진 새로운 도형
    - 멀티모달 context는 $c_{t+1} = (c_t, p_t, a_t, o_{t+1})$ 로 업데이트
- 멀티 턴 상호작용 과정은 시간 스텝 T까지 지속 → 모델이 context CT로부터 쿼리에 대해 답변할만한 충분한 정보를 수집했다고 판단하는 때
  - 이 시점에서 모델은 특별한 Terminate라는 action을 생성하고 답변을 제공
기존 연구의 경우 LM이 텍스트 기반의 observation과 action 만을 수정하고 생성했지만 SKETCHPAD는 모델이 멀티모달 observation ot, actions at를 통해 시각적, 텍스트적 내용을 모두 다루도록 함
- 시각적 스케치를 기반으로 하는 계획과 추론으로 문제 해결 능력 향상

2.2. Sketching via Code Generation

SKETCHPAD의 핵심요소는 스케치 → LM이 시각적 스케치를 생성하고 특별한 시각 모델이나 파이썬 plotting 패키지를 실행하여 수행

Program Generation

ViperGPT나 VPD와 유사하게 SKETCHPAD는 LM이 코드 생성을 통해 스케치를 하도록 함
프롬프트를 통해 사용 가능한 도구들에 대한 자세한 설명을 제공 → LM이 제공된 도구를 기반으로 코드 블락에 파이썬 코드를 생성 → 실행 후 새로운 이미지와 텍스트 출력을 생성
특별한 시각화 도구를 통해 LM이 다음 observation $o_{t+1}$ 의 스케치 이미지를 시각화 하도록 함

Modules for Sketching

SKETCHPAD는 스케치를 수행하기 위한 다양한 도구를 제공
- 수학 문제: matplotlib이나 networkx 같은 plotting을 위한 파이썬 패키지 사용
- 비전 문제: 특별한 비전 모델을 스케치 과정에 사용 → 이미지에 바운딩 박스를 그리는 객체 탐지 도구, 마킹을 위한 segmentation 등을 사용

3. Sketching to Solve Math Problems

4개의 복잡한 수학 문제에서 SKETCHPAD 실험 수행
- 1. 기하학, 2) 수학 함수, 3) 그래프 알고리즘 4) 게임 전략
스케치 능력을 LM에 결합한 것이 이런 수학 문제들에 대해 큰 성능 향상을 가지고 왔으며 State-of-the-art 성능을 달성

기하학 (Geometry Problems)

기하학의 도형에서 추가적인 선을 그리는 것은 문제 해결에 종종 큰 도움이 됨
- 예를 들어 **그림 2 (a)**를 보면 $\angle EIC$ 를 찾아야 할 때 LM은 $BD$ 와 평행한 추가적인 선 $IX$ 를 그리도록 계획하고 그 선의 특성을 통해 $\angle EIC$ 를 결정
- SKETCHPAD의 효과를 평가하기 위해 Geometry3K 데이터셋의 문제들 사용
SKETCHPAD의 선 그리기 수행 과정
- 기하학적 도형과 이에 대한 matplotlib 코드를 입력으로 받음
- 모델이 추가적인 선을 그리기 위해 변경된 코드를 제안
- 이를 실행하여 도형에 선을 추가한 결과를 시각화

수학 함수 (Mathematical Functions)

IsoBench 데이터셋 중 수학 함수와 관련된 2개의 문제에 집중
- Classifying parity
  - 함수가 짝수 (even) 함수인지, 홀수 (odd) 함수인지, 둘다 아닌지 판단하는 것이 목표
  - 짝수 함수는 모든 $x$ 에 대해 $f(-x) = f(x)$ 를 만족하는 함수, 홀수 함수는 모든 $x$ 에 대해 $f(-x) = -f(x)$ 를 만족하는 함수
- Identifying convexity / concavity
  - 함수가 오목 함수인지, 볼록 함수인지 판단하는 것이 목표
SKETCHPAD는 시각적으로 함수를 스케치하여 문제를 더욱 효율적으로 해결
- 예를 들어 **그림 1 (b)**와 같이 함수가 오목 함수인지, 볼록 함수인지 판단하기 위해 SKETCHPAD는 matplotlib를 통해 함수에 대한 그래프를 그리고 함수에 대한 모양을 시각적으로 검사

그래프 알고리즘 (Graph Algorithms)

컴퓨터 네트워크, 운송 시스템 같은 많은 실제 문제들이 그래프 문제로 정의될 수 있음
본 논문에서는 SKETCHPAD를 IsoBench의 3가지 데이터로 평가
- Graph connectivity: 그래프의 지점 사이에 경로가 존재하는지 결정
- Maximum flow: 네트워크를 통해 엣지의 용량 제한을 고려하면서 source vertex에서 sink vertex로 전달될 수 있는 flow의 최대량을 찾는 것이 목표
- Graph isomorphism: 두개의 그래프가 구조적으로 동일한지 테스트
**그림 2(b)**와 같이 그래프의 인접 행렬이 주어졌을 때 SKETCHPAD는 파이썬의 networkx 라이브러리를 통해 실제 그래프 구조를 그릴 수 있으며 이를 통해 직접적으로 그래프의 특성과 관계에 대한 시각적 추론이 가능

게임 전략 (Game Strategies)

체스게임은 다양한 형식으로 나타낼 수 있음 → 시각적인 보드의 상태, 이동에 대한 텍스트 정의
- 오직 이동에 대해서 텍스트로만 주어졌을 때 SKETCHPAD는 체스 판을 시각적으로 표현하여 위치와 전략에 대한 분석을 할 수 있음
- IsoBench 데이터셋의 winnder identification task를 통해 성능 평가 → 보드의 최종 상태를 기반으로 체스 게임의 결과를 찾는 것이 목표 (흰색이 이김, 검정색이 이김, 비김)
- 시각적인 보드를 생성하기 위해 SKETCHPAD는 파이썬의 chess 라이브러리를 사용 → 체스의 Forsyth-Edwards Notation (FEN)에 따라 보드를 그림

3.1. Results

멀티모달 LM에 대해 SKETCHPAD의 성능을 평가 → gpt-4-turbo-2024-04-09, gpt-4o-2024-05-13 포함
성능 비교 모델들
- Visual Sketchpad를 사용하지 않은 베이스라인들
- 다른 클로즈 소스 모델들 (e.g. Claude 3, Gemini-Pro)
- 오픈소스 모델들 (e.g. Mistral, LLaMA-2 70B)

Main Results

표 1에서 볼 수 있듯이 SKETCHPAD는 모든 문제에 대해서 기본 모델보다 성능이 향상됨
- GPT-4o의 경우 평균 11.2%, GPT-4 Turbo의 경우 평균 23.4%의 성능 향상을 보임
- 특히 maximum flow, connectivity 같은 그래프 알고리즘 문제에서 큰 성능 향상 달성
- 또한 SKETCHPAD는 수학 함수 부분에서도 큰 성능 향상을 달성했으며 게임 전략 에서도 3% ~ 10% 정도의 성능 향상을 확인
- 전체적인 결과를 통해 다양한 도메인에서 멀티모달 언어 모델의 추론 능력을 향상시킨다는 SKETCHPAD의 효율성을 확인할 수 있음

4. Sketching to Solve Computer Vision Tasks

복잡한 비전 추론 문제에 SKETCHPAD를 통한 실험을 수행
최근의 연구인 BLINK는 멀티모달 LM에서 많은 핵심적인 시각 추론 능력이 부족하다는 것을 보임
또한 SoM은 segmentation 마스크를 이미지에 그리는 것이 GPT-4V의 강력한 시각적 grounding 능력을 향상시킨다는 것을 보임
SKETCHPAD는 이런 아이디어들을 일반화하여 작용 → 전문적인 비전 모델을 사용하여 스케치 한 정보를 LM이 사용하도록 함
SKETCHPAD는 모든 7개의 문제에 대해 시각적 추론 능력을 향상 시켰으며 새로운 SOTA 성능을 달성

Tasks

복잡한 시각적 추론 문제를 다양하게 적용
- V* Bench: 이미지의 작은 대상에 대한 질문을 포함
- MMVP: Eyes Wide Shut의 벤치마크, CLIP 기반 멀티모달 LM의 시각적인 단점을 나타내기 위해 특별히 디자인 된 시각적 질문들을 포함하는 벤치마크
- BLINK: 사람에게는 쉽지만 멀티모달 LM에게는 특별히 어려운 시각적 인지 문제로 구성 → 상대적인 깊이, 지역적인 추론, 직소 퍼즐, 시각적 연관성, 시멘틱 연관성 문제 등으로 구성

4.1. Vision Specialists as Sketching Tools in SKETCHPAD

LM이 스케치를 위해 다음과 같은 모듈들을 사용하여 이미지를 수정 → LM이 호출할 수 있도록 해당 모듈들을 파이썬 함수를 랩핑

Detection

이미지와 간단한 텍스트 쿼리 (e.g. cat)를 입력으로 받아서 open-vocabulary 탐지 모델인 Grounding-DINO를 실행하여 탐지된 바운딩 박스를 이미지에 그림
또한 바운딩 박스의 좌표도 반환

Segmentation

이미지를 입력으로 받고 다양한 색의 segmentation 마스크가 그려진 이미지를 반환
각 마스크는 숫자 라벨을 가짐
사용한 Segmentation 모델 → SegmentAnything, Semantic-SAM

Depth Estimation

이미지를 입력으로 받아서 깊이 맵 (depth map)을 반환 → DepthAnything 모델 사용

Visual Search via Sliding Window

사람이 이미지에서 작은 아이템을 탐색하는 과정을 모방
텍스트 쿼리를 입력으로 받고 이미지에 대해 슬라이딩 윈도우를 실행
윈도우 크기는 이미지 크기의 1/3로 설정하고 스텝 사이즈는 이미지 크기의 2/9로 설정 → 이에 따라 4 x 4 = 16 윈도우 생성
쿼리가 탐지된 이미지 패치들의 시퀀스를 반환

Other Image Manipulation Modules

사용하는 다른 모듈들
- Zoom-in and crop: 이미지와 바운딩 박스를 입력으로 받아서 박스 안의 이미지를 반환
- Overlay Images: 두개의 이미지와 알파 값을 입력으로 받고 겹쳐진 이미지 (overlayed image)를 반환

4.2. Results

복잡한 시각적 추론 문제에 대해서도 기존 수학 문제와 동일한 멀티모달 LM을 사용하여 실험 수행

Main Results

표 2는 SKETCHPAD와 베이스라인들의 성능에 대한 결과를 보여줌

SKETCHPAD는 모든 문제에 대해 기반 모델의 성능을 향상시킴 → GPT-4o는 모든 문제에 대해 SoTA 성능 달성
특히 V* Bench에서 효과적 → GPT-4 Turbo의 경우 18.5%, GPT-4o의 경우 14.3% 성능 향상 달성 → 기존 SoTA인 SEAL의 성능을 능가
BLINK 문제에서는 SKETCHPAD가 GPT-4 Turbo에 대해서는 6.6%, GPT-4o에 대해서는 9% 성능 향상 달성
흥미로운 것은 SKETCHPAD의 모든 모듈이 단일 이미지에 대해 적용되지만 LM은 다수의 이미지를 사용하는 직소 퍼즐, 시각적 연관성, 시멘틱 연관성 등에 대해서도 성능 개선을 달성
마지막으로 GPT-4o에 SKETCHPAD를 사용했을 때 GPT-4 Turbo에 SKETCHPAD를 사용한 것보다 보다 강력한 멀티모달 능력을 가짐
- 예를 들어 상대적 깊이를 파악하는 문제에서 GPT-4 Turbo는 2.4% 정도의 정확도 향상을 달성했지만 GPT-4o는 12.1%의 정롹도 향상 달성
- GPT-4o가 SKETCHPAD가 생성한 깊이 맵을 더 잘 이해한다고 생각할 수 있음
전체적으로 본 결과는 SKETCHPAD가 시각적인 추론 문제에서 효과적으로 멀티모달 LM의 성능을 향상시킨다는 것을 보임

How Many Times is Each Vision Specialist Used?

각 문제에서 전문적인 비전 모델이 몇번 호출되었는지 확인 → 그림 4 참고

가장 큰 성능 향상을 달성한 4개의 문제 선택 → V* Bench, 깊이, 관계 추론, 시멘틱 연관성
위의 그림을 통해 2가지를 확인할 수 있음
1. 전문적인 비전 모델의 사용은 문제의 종류에 의존적이며 두개의 LM이 유사한 도구를 사용함
  - 예를 들어 작은 물체를 탐지해야하는 V*의 경우 LM이 주로 탐지, 슬라이딩 윈도우, 줌인 등을 사용 → 사람이 탐색하는 것과 유사
  - 상대적인 깊이 문제에서는 두 모델 모두 깊이 추정 사용
  - 위치 추론에 대해서는 LM이 탐지와 segmentation을 사용하여 시각적 추론 수행
2. GPT-4o가 더 많은 도구를 사용하는 경향이 있음
  - GPT-4o는 GPT-4o Turbo 보다 더 많은 전문 비전 모델을 사용
  - 또한 두 모델은 시멘틱 연관성 문제에서 다른 행동을 보임
    - GPT-4o는 40%를 segmentation 모듈을 사용했지만 GPT-4 Trubo는 20$ 이하로 사용
    - 이것이 해당 문제에서 두 LM의 성능 차이 (58.3% vs. 42.4%)를 보여주는 것으로 생각됨

Comparison with Visual Prompting and Tool-use Frameworks

표 3에서는 SKETCHPAD를 시각적 프롬프팅을 수행하는 SoM, LLM tool-use 프레임워크 Visprog과 성능 비교

공정한 비교를 위해 다음 사항들을 수행
- SoM 이미지로 LM을 프롬프팅 하는 것이 성능을 저하 시킨다는 것을 확인 → 시각적 프롬프트가 모델을 혼동시킴 → 이에 따라 LM에 원본 이미지와 SoM 이미지를 함께 프롬프팅 → SoM + orig
- VisProg에서 LM을 VQA 모듈로 대체
- 베이스 라인들은 단일 이미지 문제를 위한 기법들 → SKETCHPAD를 해당 문제에만 적용 후 비교
표 3을 통해 SKETCHPAD가 모든 문제에서 일관적인 성능 향상을 보이는 유일한 기법임을 알 수 있음
- SoM은 저자의 보고대로 지역적 추론 능력은 성능 향상이 있었으나 다른 문제에서 성능이 저하됨
- Visprog는 모든 문제에서 베이스 LM보다 성능이 저하됨

5. Analysis and Discussion

Why dos SKETCHPAD work?

왜 SKETCHPAD는 잘할까??
- 먼저 비전은 언어를 보강할 수 있는 다양한 정보들을 제공
  - 깊이나 segmentation의 경우 언어로는 쉽게 표현하기가 어려움
  - 또한 사람은 다양한 시각적 기법을 통해 직접적, 효율적으로 정보를 수집 → SKETCHPAD 또한 사람처럼 이런 시각적 기법을 사용하는 것
- SKETCHPAD는 멀티모달 LM이 중간에 취득한 시각적 결과물들을 이용하여 계획하고 추론하도록 함
  - 사전에 정의된 계획을 수행하던 기존 연구들과 다르게 SKETCHPAD는 더욱 오류에 유연하고 강인
  - 예를 들어 객체 탐지에서 오류가 발생하는 경우 LM이 바운딩 박스에서 에러가 있는 것을 확인하고 계획을 변경할 수 있음
- 멀티모달 LM이 사람과 유사하게 계획을 수행
  - 사람과 유사한 추론 과정을 통해 데이터를 분석
  - 아래에서 더 자세하게 살펴볼 것

Do LMs have the Same Plans as Humans?

모든 기하학 문제와 각 비전 문제 중 10 문제씩을 사람에게 풀도록 함
기하학 문제에서는 사람도 GPT-4o의 80%가 그랬던 것처럼 추가적인 선을 그림
비전 문제에서는 2명의 사람이 GPT-4o의 전체 계획을 평가 → 92.8%가 유효하다고 평가
대부분의 에러는 전문적인 비전 모델이 실패하여 발생 (e.g. 탐지 모델이 탐지 실패)하거나 계획이 필요하지 않은 단순한 질의에서 발생

Experiments on Open-source Models

도형, 그래프, 추가적인 선을 그리는 것이 오픈소스 멀티모달 LM에도 유효할까?
이를 위해 표4의 실험을 수행

오픈소스 LLaVA-NEXT 모델에 적용 → SKETCHPAD를 적용하는 경우 수학 문제에서 성능 개선을 보이며 수학적인 추론을 향상시키는 것을 알 수 있음

6. Conclusion

Visual SKETCHPAD 기법 제안 → 문제에 대한 추론을 위해 이미지에 스케치를 생성하는 도구를 사용하여 멀티모달 LM에 제공
- 복잡한 수학 문제에서 추론을 통해 큰 성능 향상 달성
- 시각적인 추론 문제에 대해 전문적인 비전 모델을 사용하여 LM이 해당 모델의 추론 결과 (e.g. 객체 탐지 모델의 바운딩 박스, segmentation 모델의 마스크, …) 를 사용 → 계획 및 추론을 수행
SKETCHPAD의 실험 결과 모든 문제에서 성능 향상을 달성하며 SoTA 성능 확보
LM이 더욱 사람과 같은 멀티모달 지능을 가지도록 함

Limitations and Future Directions

먼저 SKETCHPAD는 바로 언어 토큰을 출력하는 것에 비해 더 많은 계산 자원을 요구
두번째로 본 기법은 상용 LM에 적용하는 것에 집중 했음 → 이후 SKETCHPAD의 학습 쪽에 대해 더 살펴볼 예정
마지막으로 SKETCHPAD는 다양한 분야에 응용될 수 있음
- 로봇 문제를 예로 들어보면 SKETCHPAD를 통해 복잡한 공간에서 작은 물체를 찾고 → 관심 물체를 표시한 후 → 카메라를 줌인하거나 경로 생성을 돕기 위해 깊이 추정을 사용할 수 있음

'논문 리뷰 > Multi-Modal' 카테고리의 다른 글

MyVLM: Personalizing VLMs for User-Specific Queries (10)	2024.09.01
SpatialVLM: Endowing Vision-Language Models with Spatial Reasoning Capabilities (4)	2024.09.01
[LLaVA 1.5] Improved Baselines with Visual Instruction Tuning (7)	2024.09.01
[LLaVA] Visual Instruction Tuning (4)	2024.08.31
[SIGLIP] Sigmoid Loss for Language Image Pre-Training (1)	2024.08.31

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

박사개구리의 블로그

Visual SKETCHPAD: Sketching as a Visual Chain of Thought for Multimodal Language Models

0. Abstract

1. Introduction

2. Visual SKETCHPAD

2.1. Overview of SKETCHPAD

2.2. Sketching via Code Generation

Program Generation

Modules for Sketching

3. Sketching to Solve Math Problems

3.1. Results

Main Results

4. Sketching to Solve Computer Vision Tasks

Tasks

4.1. Vision Specialists as Sketching Tools in SKETCHPAD

Detection

Segmentation

Depth Estimation

Visual Search via Sliding Window

Other Image Manipulation Modules

4.2. Results

Main Results

How Many Times is Each Vision Specialist Used?

Comparison with Visual Prompting and Tool-use Frameworks

5. Analysis and Discussion

Why dos SKETCHPAD work?

Do LMs have the Same Plans as Humans?

Experiments on Open-source Models

6. Conclusion

Limitations and Future Directions

'논문 리뷰 > Multi-Modal' 카테고리의 다른 글

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역

Visual SKETCHPAD: Sketching as a Visual Chain of Thought for Multimodal Language Models

0. Abstract

1. Introduction

2. Visual SKETCHPAD

2.1. Overview of SKETCHPAD

2.2. Sketching via Code Generation

Program Generation

Modules for Sketching

3. Sketching to Solve Math Problems

3.1. Results

Main Results

4. Sketching to Solve Computer Vision Tasks

Tasks

4.1. Vision Specialists as Sketching Tools in SKETCHPAD

Detection

Segmentation

Depth Estimation

Visual Search via Sliding Window

Other Image Manipulation Modules

4.2. Results

Main Results

How Many Times is Each Vision Specialist Used?

Comparison with Visual Prompting and Tool-use Frameworks

5. Analysis and Discussion

Why dos SKETCHPAD work?

Do LMs have the Same Plans as Humans?

Experiments on Open-source Models

6. Conclusion

Limitations and Future Directions

'논문 리뷰 > Multi-Modal' 카테고리의 다른 글

관련글

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역