본문 바로가기

Multi Modal1

Visual SKETCHPAD: Sketching as a Visual Chain of Thought for Multimodal Language Models 논문 링크: https://arxiv.org/pdf/2406.09403프로젝트 링크: https://visualsketchpad.github.io/0. Abstract사람은 추론 능력 향상을 위해 그림을 그림예시: 기하학 문제를 풀 때 추가적인 선을 그림, 지도를 볼 때 표시를 하거나 동그라미를 그림, …그러나 이런 행동은 현재의 멀티모달 언어 모델 (LMs)에는 사용하지 않음현재의 CoT (Chain-of-Thought)과 도구 사용 (tool-use)은 중간 추론 과정에서 텍스트만을 사용본 논문에서는 SKETCHPAD 기법을 제안LM이 스스로 그린 시각적인 내용을 기반으로 계획 (planning)과 추론 (reasoning)을 수행text-to-image 모델을 사용하여 LM이 그릴 수 있게 한 기존.. 2025. 1. 21.

이전 1 다음

티스토리툴바