LLM3 SFT Memorizes, RL Generalizes: A Comparative Study of Foundation Model Post-training Link: https://arxiv.org/pdf/2501.171610. Abstract지도 파인튜닝 (Supervised Fine-tuning, SFT)와 강화학습 (Reinforcement Learning, RL)은 기반 모델 (Foundation Model)의 사후 학습 (Post-training)을 위해 널리 사용되는 기법들그러나 모델의 일반성 (Generalization) 향상을 위한 각 모델의 역할은 아직 불분명함본 논문에서는 SFT와 RL의 일반성과 기억력 (memorization)에 대한 효과를 비교 → 텍스트 기반과 시각적 환경두개의 검증 환경 사용GeneralPoints: 수학적 추론이 필요한 카드 게임V-IRL: 실제 네비게이션 환경 → SFT과 RL로 학습된 모델이 텍스트와 이미지 .. 2025. 2. 28. StepTool: A Step-grained Reinforcement Learning Framework for Tool Learning in LLMs Link: https://arxiv.org/pdf/2410.07745깃허브: https://github.com/yuyq18/StepTool0. Abstract대형 언어 모델 (Large Language Model, LLM)의 강력한 논리 및 추론 능력에도 불구하고 LLM은 여전히 복잡한 문제를 풀기 위해 실시간 정보 검색이나 특정 도메인의 전문 지식을 필요로 함 → 이를 도구 학습 (Tool Learning)이라고 함기존 tool learning 기법들의 한계주로 전문가의 도구 선택 과정을 언어적 관점에서 토큰 시퀀스를 학습하는 방식으로 튜닝이 방식은 정적인 선택 과정을 모방하므로 새로운 문제에 대해 일반화하는 능력이 제한됨또한 전문가의 도구 선택 과정이 최적이 아니고 더 나은 방법이 있을 가능성이 있음.. 2025. 2. 15. Guiding Pretraining in Reinforcement Learning with Large Language Models Paper: https://arxiv.org/pdf/2302.06692.pdf0. Abstract강화학습 알고리즘은 밀집되고 (dense) 잘 형성된 보상 함수가 없는 것이 일반적인 문제점이런 한계를 극복하기 위해 내적 동기부여 (intrinsically motivated) 탐험 기법이 사용됨 → 에이전트가 새로운 상태에 방문하는 경우 보상을 제공하지만 이런 방법은 매우 규모가 큰 환경에서 탐색된 새로운 상태가 실제 문제 해결과 무관한 경우가 많을 때에는 별 도움이 되지 못함본 논문에서는 탐험을 위한 사전 지식으로 텍스트 정보를 사용하는 기법을 제안 → ELLM (Exploring with LLMs)에이전트의 현재 상태를 묘사한 정보를 프롬프트로 한 언어 모델이 제안한 목표를 달성하는 경우 보상 제공대규.. 2024. 11. 21. 이전 1 다음