m-rl1 [M-RL] Munchausen Reinforcement Learning Link: https://arxiv.org/abs/2007.14430Official Code: https://github.com/google-research/google-research/tree/master/munchausen_rl0. AbstractBootstrapping → RL의 핵심 요소가치의 추정값으로 실제값을 대체하는 방식현재 정책에 대한 추정이 bootstrap RL을 강화할 수 있음본 논문의 core contribution은 매우 간단함즉각적인 보상 (immediate reward)에 scaled log-policy를 더하는 것이 변경을 DQN과 IQN에 적용 → Rainbow를 뛰어넘는 SOTA 성능 도출해당 성능 향상의 이론적인 insightImplicit Kullback-Leible.. 2024. 9. 16. 이전 1 다음