supervised fine tuning1 SFT Memorizes, RL Generalizes: A Comparative Study of Foundation Model Post-training Link: https://arxiv.org/pdf/2501.171610. Abstract지도 파인튜닝 (Supervised Fine-tuning, SFT)와 강화학습 (Reinforcement Learning, RL)은 기반 모델 (Foundation Model)의 사후 학습 (Post-training)을 위해 널리 사용되는 기법들그러나 모델의 일반성 (Generalization) 향상을 위한 각 모델의 역할은 아직 불분명함본 논문에서는 SFT와 RL의 일반성과 기억력 (memorization)에 대한 효과를 비교 → 텍스트 기반과 시각적 환경두개의 검증 환경 사용GeneralPoints: 수학적 추론이 필요한 카드 게임V-IRL: 실제 네비게이션 환경 → SFT과 RL로 학습된 모델이 텍스트와 이미지 .. 2025. 2. 28. 이전 1 다음