본문 바로가기

Reinforcement Learning19

World Models with Hints of Large Language Models for Goal Achieving Paper: https://arxiv.org/pdf/2406.073810. Abstract강화학습은 장기적인 (long-horizon) 문제나 목표가 희소한 (sparse) 환경에서는 수동으로 보상 설정을 하는 것의 어려움 때문에 학습이 잘 안됨기존 기법들은 이를 해결하기 위해 내적 보상 (intrinsic reward)을 사용하지만 큰 상태와 행동 공간을 가지는 장기적인 의사 결정 문제에서는 의미있게 가이드하지 못함 → 목적성 있는 탐험을 수행하지 못함본 논문에서는 멀티모달 모델 기반 강화학습을 제안 → Dreaming with Large Language Models (DLLM)언어 모델로부터 제안된 힌트 하위 목표를 모델 롤아웃 (rollouts)에 통합하여 목표를 달성하고 어려운 문제를 해결할 수 .. 2024. 11. 24.
Pretraining for Language-Conditioned Imitation with Transformers Paper: https://offline-rl-neurips.github.io/2021/pdf/40.pdf코드 및 데이터셋: https://github.com/Louiealbp/TDT0. Abstract본 논문은 언어 입력을 사용하여 세부적인 문제를 효율적으로 학습하는 강화학습 에이전트에 대한 연구를 수행이를 위해 멀티모달 벤치마크를 제안텍스트 조건부 (Text-Conditioned) Frostbite → 에이전트가 Atari Frostbite 환경에서 텍스트 명령으로 정의된 문제를 달성해야 함학습을 위해 5M 개의 텍스트로 라벨링 된 transition들을 제공해당 벤치마크를 통해 Text Decision Transformer (TDT)를 평가텍스트, 상태, 행동 토큰을 통해 직접적으로 동작하는 트랜스.. 2024. 11. 23.
Stop Regressing: Training Value Function via Classification for Scalable Deep RL Paper: https://arxiv.org/pdf/2403.03950v1.pdfC51 관련 내용을 알고 보면 더 좋을 듯 합니다!0. Abstract가치함수 (Value Function)은 심층 강화학습에서 중심적인 요소인공신경망으로 파라미터화 된 해당 함수는 bootstrapped 타겟값과 일치하도록 평균 제곱 오차 회귀 목적함수 (Mean squared error regression objective)를 사용하여 학습그러나 이렇게 회귀를 사용하는 가치 기반 강화학습은 큰 규모의 네트워크 (ex. Transformers)로의 확장이 어려움이런 어려움은 지도 학습에 비해 극명하게 드러남 → Cross-entropy 기반의 지도 학습 기법은 대형 네트워크로 확장될 수 있음이에 따라 본 논문에서는 가치 함.. 2024. 11. 22.
Guiding Pretraining in Reinforcement Learning with Large Language Models Paper: https://arxiv.org/pdf/2302.06692.pdf0. Abstract강화학습 알고리즘은 밀집되고 (dense) 잘 형성된 보상 함수가 없는 것이 일반적인 문제점이런 한계를 극복하기 위해 내적 동기부여 (intrinsically motivated) 탐험 기법이 사용됨 → 에이전트가 새로운 상태에 방문하는 경우 보상을 제공하지만 이런 방법은 매우 규모가 큰 환경에서 탐색된 새로운 상태가 실제 문제 해결과 무관한 경우가 많을 때에는 별 도움이 되지 못함본 논문에서는 탐험을 위한 사전 지식으로 텍스트 정보를 사용하는 기법을 제안 → ELLM (Exploring with LLMs)에이전트의 현재 상태를 묘사한 정보를 프롬프트로 한 언어 모델이 제안한 목표를 달성하는 경우 보상 제공대규.. 2024. 11. 21.
EUREKA: Human-level Reward Design via Coding Large Language Models Paper: https://eureka-research.github.io/assets/eureka_paper.pdf프로젝트 페이지: https://eureka-research.github.io/깃허브: https://github.com/eureka-research/Eureka0. Abstract대형 언어 모델 (Large Language Model, LLM)은 순차적 의사 결정 문제를 위한 high-level semantic 플래너로서 좋은 성능을 보임그러나 펜돌리기 같은 복잡한 low-level의 제어 문제를 학습하는데 LMM을 활용하는 것은 아직 해결되지 않은 문제이런 근본적인 차이를 해결하기 위해 EUREKA 기법을 제안 → LLM을 통한 사람 수준의 보상 디자인 알고리즘EUREKA는 뛰어난 제로샷.. 2024. 11. 20.
Training Diffusion Models with Reinforcement Learning Paper: https://arxiv.org/pdf/2305.13301.pdf프로젝트 페이지: https://rl-diffusion.github.io/0. AbstractDiffusion 모델은 log-likelihood objective로 근사되어 학습한 유연한 생성 모델하지만 대부분의 diffusion 모델 사용시 likelihood가 고려되지 않고 인간이 인지하는 이미지의 품질이나 drug effectiveness (?) 같은 다운스트림 목표와 관련됨본 논문은 강화학습을 통해 diffusion 모델을 직접적으로 최적화하는 방법에 대해 설명노이즈 제거 과정을 다수의 단계에 대한 의사 결정 문제로 취급 → policy gradient 알고리즘을 사용할 수 있도록 함본 논문에서 제안하는 기법 -> Den.. 2024. 11. 16.