sampled muzero1 [Sampled MuZero] Learning and Planning in Complex Action Spaces Link: https://arxiv.org/pdf/2104.06303.pdf0. Abstract많은 중요한 실생활의 문제들은 높은 차원의, 혹은 연속적인 행동 공간을 가짐 → 이 모든 행동을 다 살펴보는 것은 불가능!대신에 policy evaluation과 improvement를 위해 작은 행동의 subset만 샘플링하는 것은 가능본 논문에서는 이렇게 샘플링 된 행동의 subset에 대해 policy evaluation과 improvement를 수행하는 general framework 제안이 sample 기반 policy iteration framework는 policy iteration을 기반으로 하는 어떤 강화학습 알고리즘에도 적용될 수 있음본 논문은 Sampled MuZero 알고리즘을 제안 → M.. 2024. 10. 15. 이전 1 다음