world model1 World Models with Hints of Large Language Models for Goal Achieving Paper: https://arxiv.org/pdf/2406.073810. Abstract강화학습은 장기적인 (long-horizon) 문제나 목표가 희소한 (sparse) 환경에서는 수동으로 보상 설정을 하는 것의 어려움 때문에 학습이 잘 안됨기존 기법들은 이를 해결하기 위해 내적 보상 (intrinsic reward)을 사용하지만 큰 상태와 행동 공간을 가지는 장기적인 의사 결정 문제에서는 의미있게 가이드하지 못함 → 목적성 있는 탐험을 수행하지 못함본 논문에서는 멀티모달 모델 기반 강화학습을 제안 → Dreaming with Large Language Models (DLLM)언어 모델로부터 제안된 힌트 하위 목표를 모델 롤아웃 (rollouts)에 통합하여 목표를 달성하고 어려운 문제를 해결할 수 .. 2024. 11. 24. 이전 1 다음