본문 바로가기

티스토리챌린지14

Stabilizing Off-Policy Q-Learning via Bootstrapping Error Reduction (BEAR) 논문 링크: https://arxiv.org/pdf/1906.00949.pdf 0. Abstract기존의 강화학습 기법을 적용하는 경우 추가적인 on-policy data 수집 없이는 성능이 제한적제안하는 문제 세팅: off policy 경험을 고정하고 환경과 상호작용이 없도록현재 instability의 주요 요소 → Bootstrapping error학습 데이터의 분포 바깥에 있는 데이터의 행동에 의해 boostrapping error 발생Bellman backup operator에 의해 누적제안하는 기법: Bootstrapping Error Accumulation Reduction (BEAR)행동 선택에 제한을 두어 backup이 이를 피할 수 있도록 함1. Introduction기존 강화학습의 한계.. 2024. 11. 27.
Batch Constrained Q-Learning (BCQ) Paper link: https://arxiv.org/pdf/1812.02900.pdfBCQ 구현 관련 사항총 4가지 모델 사용Generative model: $G_{\omega}(s)$Perturbation model: $\xi_{\phi}(s,a)$Q-networks: $Q_{\theta_1}, Q_{\theta_2}$AlgorithmGeneratorEncoder $E_{\omega_1}(s,a)$와 Decoder $D_{\omega_2}(s,a)$로 구성 → VAEEncoder는 $\mu, \sigma$를 도출 → z를 sampling → Decoder의 입력으로 s, z 사용 → action을 예측학습은 예측 action과 실제 action이 유사하도록, KL divergence를 통해 mu=0,.. 2024. 11. 26.
Understanding the World Through Action 논문 링크: https://arxiv.org/abs/2110.12543 0. Abstract머신러닝 기법은 아주 크고 다양한 데이터셋을 통해 아주 크고 high capacity model로 학습을 수행하는 것이 가장 효율적이에 따라 scale을 위한 bottleneck을 줄이는 방법을 찾기 시작이런 bottleneck 중 대표적인 것은 사람의 노력을 요구하는 것 → curating and labeling datasets결과적으로 최근에 주목을 받고 있는 것은 대량의 데이터를 수집할 수 있는 unlabeled data를 사용하는 것본 논문에서는 unlabeled data를 사용하기 위한 general, principled and powerful 프레임워크가 Reinforcement Learning을 통해 .. 2024. 11. 25.
World Models with Hints of Large Language Models for Goal Achieving Paper: https://arxiv.org/pdf/2406.073810. Abstract강화학습은 장기적인 (long-horizon) 문제나 목표가 희소한 (sparse) 환경에서는 수동으로 보상 설정을 하는 것의 어려움 때문에 학습이 잘 안됨기존 기법들은 이를 해결하기 위해 내적 보상 (intrinsic reward)을 사용하지만 큰 상태와 행동 공간을 가지는 장기적인 의사 결정 문제에서는 의미있게 가이드하지 못함 → 목적성 있는 탐험을 수행하지 못함본 논문에서는 멀티모달 모델 기반 강화학습을 제안 → Dreaming with Large Language Models (DLLM)언어 모델로부터 제안된 힌트 하위 목표를 모델 롤아웃 (rollouts)에 통합하여 목표를 달성하고 어려운 문제를 해결할 수 .. 2024. 11. 24.
Pretraining for Language-Conditioned Imitation with Transformers Paper: https://offline-rl-neurips.github.io/2021/pdf/40.pdf코드 및 데이터셋: https://github.com/Louiealbp/TDT0. Abstract본 논문은 언어 입력을 사용하여 세부적인 문제를 효율적으로 학습하는 강화학습 에이전트에 대한 연구를 수행이를 위해 멀티모달 벤치마크를 제안텍스트 조건부 (Text-Conditioned) Frostbite → 에이전트가 Atari Frostbite 환경에서 텍스트 명령으로 정의된 문제를 달성해야 함학습을 위해 5M 개의 텍스트로 라벨링 된 transition들을 제공해당 벤치마크를 통해 Text Decision Transformer (TDT)를 평가텍스트, 상태, 행동 토큰을 통해 직접적으로 동작하는 트랜스.. 2024. 11. 23.
Stop Regressing: Training Value Function via Classification for Scalable Deep RL Paper: https://arxiv.org/pdf/2403.03950v1.pdfC51 관련 내용을 알고 보면 더 좋을 듯 합니다!0. Abstract가치함수 (Value Function)은 심층 강화학습에서 중심적인 요소인공신경망으로 파라미터화 된 해당 함수는 bootstrapped 타겟값과 일치하도록 평균 제곱 오차 회귀 목적함수 (Mean squared error regression objective)를 사용하여 학습그러나 이렇게 회귀를 사용하는 가치 기반 강화학습은 큰 규모의 네트워크 (ex. Transformers)로의 확장이 어려움이런 어려움은 지도 학습에 비해 극명하게 드러남 → Cross-entropy 기반의 지도 학습 기법은 대형 네트워크로 확장될 수 있음이에 따라 본 논문에서는 가치 함.. 2024. 11. 22.