논문 리뷰/Reinforcement Learning22 SFT Memorizes, RL Generalizes: A Comparative Study of Foundation Model Post-training Link: https://arxiv.org/pdf/2501.171610. Abstract지도 파인튜닝 (Supervised Fine-tuning, SFT)와 강화학습 (Reinforcement Learning, RL)은 기반 모델 (Foundation Model)의 사후 학습 (Post-training)을 위해 널리 사용되는 기법들그러나 모델의 일반성 (Generalization) 향상을 위한 각 모델의 역할은 아직 불분명함본 논문에서는 SFT와 RL의 일반성과 기억력 (memorization)에 대한 효과를 비교 → 텍스트 기반과 시각적 환경두개의 검증 환경 사용GeneralPoints: 수학적 추론이 필요한 카드 게임V-IRL: 실제 네비게이션 환경 → SFT과 RL로 학습된 모델이 텍스트와 이미지 .. 2025. 2. 28. StepTool: A Step-grained Reinforcement Learning Framework for Tool Learning in LLMs Link: https://arxiv.org/pdf/2410.07745깃허브: https://github.com/yuyq18/StepTool0. Abstract대형 언어 모델 (Large Language Model, LLM)의 강력한 논리 및 추론 능력에도 불구하고 LLM은 여전히 복잡한 문제를 풀기 위해 실시간 정보 검색이나 특정 도메인의 전문 지식을 필요로 함 → 이를 도구 학습 (Tool Learning)이라고 함기존 tool learning 기법들의 한계주로 전문가의 도구 선택 과정을 언어적 관점에서 토큰 시퀀스를 학습하는 방식으로 튜닝이 방식은 정적인 선택 과정을 모방하므로 새로운 문제에 대해 일반화하는 능력이 제한됨또한 전문가의 도구 선택 과정이 최적이 아니고 더 나은 방법이 있을 가능성이 있음.. 2025. 2. 15. World Models with Hints of Large Language Models for Goal Achieving Paper: https://arxiv.org/pdf/2406.073810. Abstract강화학습은 장기적인 (long-horizon) 문제나 목표가 희소한 (sparse) 환경에서는 수동으로 보상 설정을 하는 것의 어려움 때문에 학습이 잘 안됨기존 기법들은 이를 해결하기 위해 내적 보상 (intrinsic reward)을 사용하지만 큰 상태와 행동 공간을 가지는 장기적인 의사 결정 문제에서는 의미있게 가이드하지 못함 → 목적성 있는 탐험을 수행하지 못함본 논문에서는 멀티모달 모델 기반 강화학습을 제안 → Dreaming with Large Language Models (DLLM)언어 모델로부터 제안된 힌트 하위 목표를 모델 롤아웃 (rollouts)에 통합하여 목표를 달성하고 어려운 문제를 해결할 수 .. 2024. 11. 24. Pretraining for Language-Conditioned Imitation with Transformers Paper: https://offline-rl-neurips.github.io/2021/pdf/40.pdf코드 및 데이터셋: https://github.com/Louiealbp/TDT0. Abstract본 논문은 언어 입력을 사용하여 세부적인 문제를 효율적으로 학습하는 강화학습 에이전트에 대한 연구를 수행이를 위해 멀티모달 벤치마크를 제안텍스트 조건부 (Text-Conditioned) Frostbite → 에이전트가 Atari Frostbite 환경에서 텍스트 명령으로 정의된 문제를 달성해야 함학습을 위해 5M 개의 텍스트로 라벨링 된 transition들을 제공해당 벤치마크를 통해 Text Decision Transformer (TDT)를 평가텍스트, 상태, 행동 토큰을 통해 직접적으로 동작하는 트랜스.. 2024. 11. 23. Stop Regressing: Training Value Function via Classification for Scalable Deep RL Paper: https://arxiv.org/pdf/2403.03950v1.pdfC51 관련 내용을 알고 보면 더 좋을 듯 합니다!0. Abstract가치함수 (Value Function)은 심층 강화학습에서 중심적인 요소인공신경망으로 파라미터화 된 해당 함수는 bootstrapped 타겟값과 일치하도록 평균 제곱 오차 회귀 목적함수 (Mean squared error regression objective)를 사용하여 학습그러나 이렇게 회귀를 사용하는 가치 기반 강화학습은 큰 규모의 네트워크 (ex. Transformers)로의 확장이 어려움이런 어려움은 지도 학습에 비해 극명하게 드러남 → Cross-entropy 기반의 지도 학습 기법은 대형 네트워크로 확장될 수 있음이에 따라 본 논문에서는 가치 함.. 2024. 11. 22. Guiding Pretraining in Reinforcement Learning with Large Language Models Paper: https://arxiv.org/pdf/2302.06692.pdf0. Abstract강화학습 알고리즘은 밀집되고 (dense) 잘 형성된 보상 함수가 없는 것이 일반적인 문제점이런 한계를 극복하기 위해 내적 동기부여 (intrinsically motivated) 탐험 기법이 사용됨 → 에이전트가 새로운 상태에 방문하는 경우 보상을 제공하지만 이런 방법은 매우 규모가 큰 환경에서 탐색된 새로운 상태가 실제 문제 해결과 무관한 경우가 많을 때에는 별 도움이 되지 못함본 논문에서는 탐험을 위한 사전 지식으로 텍스트 정보를 사용하는 기법을 제안 → ELLM (Exploring with LLMs)에이전트의 현재 상태를 묘사한 정보를 프롬프트로 한 언어 모델이 제안한 목표를 달성하는 경우 보상 제공대규.. 2024. 11. 21. 이전 1 2 3 4 다음