bcq1 Batch Constrained Q-Learning (BCQ) Paper link: https://arxiv.org/pdf/1812.02900.pdfBCQ 구현 관련 사항총 4가지 모델 사용Generative model: $G_{\omega}(s)$Perturbation model: $\xi_{\phi}(s,a)$Q-networks: $Q_{\theta_1}, Q_{\theta_2}$AlgorithmGeneratorEncoder $E_{\omega_1}(s,a)$와 Decoder $D_{\omega_2}(s,a)$로 구성 → VAEEncoder는 $\mu, \sigma$를 도출 → z를 sampling → Decoder의 입력으로 s, z 사용 → action을 예측학습은 예측 action과 실제 action이 유사하도록, KL divergence를 통해 mu=0,.. 2024. 11. 26. 이전 1 다음