본문 바로가기

논문 리뷰/Offline RL3

Stabilizing Off-Policy Q-Learning via Bootstrapping Error Reduction (BEAR) 논문 링크: https://arxiv.org/pdf/1906.00949.pdf 0. Abstract기존의 강화학습 기법을 적용하는 경우 추가적인 on-policy data 수집 없이는 성능이 제한적제안하는 문제 세팅: off policy 경험을 고정하고 환경과 상호작용이 없도록현재 instability의 주요 요소 → Bootstrapping error학습 데이터의 분포 바깥에 있는 데이터의 행동에 의해 boostrapping error 발생Bellman backup operator에 의해 누적제안하는 기법: Bootstrapping Error Accumulation Reduction (BEAR)행동 선택에 제한을 두어 backup이 이를 피할 수 있도록 함1. Introduction기존 강화학습의 한계.. 2024. 11. 27.
Batch Constrained Q-Learning (BCQ) Paper link: https://arxiv.org/pdf/1812.02900.pdfBCQ 구현 관련 사항총 4가지 모델 사용Generative model: $G_{\omega}(s)$Perturbation model: $\xi_{\phi}(s,a)$Q-networks: $Q_{\theta_1}, Q_{\theta_2}$AlgorithmGeneratorEncoder $E_{\omega_1}(s,a)$와 Decoder $D_{\omega_2}(s,a)$로 구성 → VAEEncoder는 $\mu, \sigma$를 도출 → z를 sampling → Decoder의 입력으로 s, z 사용 → action을 예측학습은 예측 action과 실제 action이 유사하도록, KL divergence를 통해 mu=0,.. 2024. 11. 26.
Understanding the World Through Action 논문 링크: https://arxiv.org/abs/2110.12543 0. Abstract머신러닝 기법은 아주 크고 다양한 데이터셋을 통해 아주 크고 high capacity model로 학습을 수행하는 것이 가장 효율적이에 따라 scale을 위한 bottleneck을 줄이는 방법을 찾기 시작이런 bottleneck 중 대표적인 것은 사람의 노력을 요구하는 것 → curating and labeling datasets결과적으로 최근에 주목을 받고 있는 것은 대량의 데이터를 수집할 수 있는 unlabeled data를 사용하는 것본 논문에서는 unlabeled data를 사용하기 위한 general, principled and powerful 프레임워크가 Reinforcement Learning을 통해 .. 2024. 11. 25.