Bear1 Stabilizing Off-Policy Q-Learning via Bootstrapping Error Reduction (BEAR) 논문 링크: https://arxiv.org/pdf/1906.00949.pdf 0. Abstract기존의 강화학습 기법을 적용하는 경우 추가적인 on-policy data 수집 없이는 성능이 제한적제안하는 문제 세팅: off policy 경험을 고정하고 환경과 상호작용이 없도록현재 instability의 주요 요소 → Bootstrapping error학습 데이터의 분포 바깥에 있는 데이터의 행동에 의해 boostrapping error 발생Bellman backup operator에 의해 누적제안하는 기법: Bootstrapping Error Accumulation Reduction (BEAR)행동 선택에 제한을 두어 backup이 이를 피할 수 있도록 함1. Introduction기존 강화학습의 한계.. 2024. 11. 27. 이전 1 다음