본문 바로가기

vlm2

SFT Memorizes, RL Generalizes: A Comparative Study of Foundation Model Post-training Link: https://arxiv.org/pdf/2501.171610. Abstract지도 파인튜닝 (Supervised Fine-tuning, SFT)와 강화학습 (Reinforcement Learning, RL)은 기반 모델 (Foundation Model)의 사후 학습 (Post-training)을 위해 널리 사용되는 기법들그러나 모델의 일반성 (Generalization) 향상을 위한 각 모델의 역할은 아직 불분명함본 논문에서는 SFT와 RL의 일반성과 기억력 (memorization)에 대한 효과를 비교 → 텍스트 기반과 시각적 환경두개의 검증 환경 사용GeneralPoints: 수학적 추론이 필요한 카드 게임V-IRL: 실제 네비게이션 환경 → SFT과 RL로 학습된 모델이 텍스트와 이미지 .. 2025. 2. 28.
Visual SKETCHPAD: Sketching as a Visual Chain of Thought for Multimodal Language Models 논문 링크: https://arxiv.org/pdf/2406.09403프로젝트 링크: https://visualsketchpad.github.io/0. Abstract사람은 추론 능력 향상을 위해 그림을 그림예시: 기하학 문제를 풀 때 추가적인 선을 그림, 지도를 볼 때 표시를 하거나 동그라미를 그림, …그러나 이런 행동은 현재의 멀티모달 언어 모델 (LMs)에는 사용하지 않음현재의 CoT (Chain-of-Thought)과 도구 사용 (tool-use)은 중간 추론 과정에서 텍스트만을 사용본 논문에서는 SKETCHPAD 기법을 제안LM이 스스로 그린 시각적인 내용을 기반으로 계획 (planning)과 추론 (reasoning)을 수행text-to-image 모델을 사용하여 LM이 그릴 수 있게 한 기존.. 2025. 1. 21.