본문 바로가기

전체 글37

SFT Memorizes, RL Generalizes: A Comparative Study of Foundation Model Post-training Link: https://arxiv.org/pdf/2501.171610. Abstract지도 파인튜닝 (Supervised Fine-tuning, SFT)와 강화학습 (Reinforcement Learning, RL)은 기반 모델 (Foundation Model)의 사후 학습 (Post-training)을 위해 널리 사용되는 기법들그러나 모델의 일반성 (Generalization) 향상을 위한 각 모델의 역할은 아직 불분명함본 논문에서는 SFT와 RL의 일반성과 기억력 (memorization)에 대한 효과를 비교 → 텍스트 기반과 시각적 환경두개의 검증 환경 사용GeneralPoints: 수학적 추론이 필요한 카드 게임V-IRL: 실제 네비게이션 환경 → SFT과 RL로 학습된 모델이 텍스트와 이미지 .. 2025. 2. 28.
StepTool: A Step-grained Reinforcement Learning Framework for Tool Learning in LLMs Link: https://arxiv.org/pdf/2410.07745깃허브: https://github.com/yuyq18/StepTool0. Abstract대형 언어 모델 (Large Language Model, LLM)의 강력한 논리 및 추론 능력에도 불구하고 LLM은 여전히 복잡한 문제를 풀기 위해 실시간 정보 검색이나 특정 도메인의 전문 지식을 필요로 함 → 이를 도구 학습 (Tool Learning)이라고 함기존 tool learning 기법들의 한계주로 전문가의 도구 선택 과정을 언어적 관점에서 토큰 시퀀스를 학습하는 방식으로 튜닝이 방식은 정적인 선택 과정을 모방하므로 새로운 문제에 대해 일반화하는 능력이 제한됨또한 전문가의 도구 선택 과정이 최적이 아니고 더 나은 방법이 있을 가능성이 있음.. 2025. 2. 15.
Visual SKETCHPAD: Sketching as a Visual Chain of Thought for Multimodal Language Models 논문 링크: https://arxiv.org/pdf/2406.09403프로젝트 링크: https://visualsketchpad.github.io/0. Abstract사람은 추론 능력 향상을 위해 그림을 그림예시: 기하학 문제를 풀 때 추가적인 선을 그림, 지도를 볼 때 표시를 하거나 동그라미를 그림, …그러나 이런 행동은 현재의 멀티모달 언어 모델 (LMs)에는 사용하지 않음현재의 CoT (Chain-of-Thought)과 도구 사용 (tool-use)은 중간 추론 과정에서 텍스트만을 사용본 논문에서는 SKETCHPAD 기법을 제안LM이 스스로 그린 시각적인 내용을 기반으로 계획 (planning)과 추론 (reasoning)을 수행text-to-image 모델을 사용하여 LM이 그릴 수 있게 한 기존.. 2025. 1. 21.
Stabilizing Off-Policy Q-Learning via Bootstrapping Error Reduction (BEAR) 논문 링크: https://arxiv.org/pdf/1906.00949.pdf 0. Abstract기존의 강화학습 기법을 적용하는 경우 추가적인 on-policy data 수집 없이는 성능이 제한적제안하는 문제 세팅: off policy 경험을 고정하고 환경과 상호작용이 없도록현재 instability의 주요 요소 → Bootstrapping error학습 데이터의 분포 바깥에 있는 데이터의 행동에 의해 boostrapping error 발생Bellman backup operator에 의해 누적제안하는 기법: Bootstrapping Error Accumulation Reduction (BEAR)행동 선택에 제한을 두어 backup이 이를 피할 수 있도록 함1. Introduction기존 강화학습의 한계.. 2024. 11. 27.
Batch Constrained Q-Learning (BCQ) Paper link: https://arxiv.org/pdf/1812.02900.pdfBCQ 구현 관련 사항총 4가지 모델 사용Generative model: $G_{\omega}(s)$Perturbation model: $\xi_{\phi}(s,a)$Q-networks: $Q_{\theta_1}, Q_{\theta_2}$AlgorithmGeneratorEncoder $E_{\omega_1}(s,a)$와 Decoder $D_{\omega_2}(s,a)$로 구성 → VAEEncoder는 $\mu, \sigma$를 도출 → z를 sampling → Decoder의 입력으로 s, z 사용 → action을 예측학습은 예측 action과 실제 action이 유사하도록, KL divergence를 통해 mu=0,.. 2024. 11. 26.
Understanding the World Through Action 논문 링크: https://arxiv.org/abs/2110.12543 0. Abstract머신러닝 기법은 아주 크고 다양한 데이터셋을 통해 아주 크고 high capacity model로 학습을 수행하는 것이 가장 효율적이에 따라 scale을 위한 bottleneck을 줄이는 방법을 찾기 시작이런 bottleneck 중 대표적인 것은 사람의 노력을 요구하는 것 → curating and labeling datasets결과적으로 최근에 주목을 받고 있는 것은 대량의 데이터를 수집할 수 있는 unlabeled data를 사용하는 것본 논문에서는 unlabeled data를 사용하기 위한 general, principled and powerful 프레임워크가 Reinforcement Learning을 통해 .. 2024. 11. 25.