Muzero2 [Sampled MuZero] Learning and Planning in Complex Action Spaces Link: https://arxiv.org/pdf/2104.06303.pdf0. Abstract많은 중요한 실생활의 문제들은 높은 차원의, 혹은 연속적인 행동 공간을 가짐 → 이 모든 행동을 다 살펴보는 것은 불가능!대신에 policy evaluation과 improvement를 위해 작은 행동의 subset만 샘플링하는 것은 가능본 논문에서는 이렇게 샘플링 된 행동의 subset에 대해 policy evaluation과 improvement를 수행하는 general framework 제안이 sample 기반 policy iteration framework는 policy iteration을 기반으로 하는 어떤 강화학습 알고리즘에도 적용될 수 있음본 논문은 Sampled MuZero 알고리즘을 제안 → M.. 2024. 10. 15. [MuZero] Mastering Atari, Go Chess and Shogi by Planning with a Learned Model Link: https://www.nature.com/articles/s41586-020-03051-4#MOESM1ArXiv link: https://arxiv.org/pdf/1911.08265.pdfSudo Codepseudocode.py0. AbstractPlanning 능력을 가진 에이전트를 구축하는 것은 인공지능이 오랫동안 추구해 온 main challenge 중 하나Tree-based planning 기법의 경우 perfect simulation의 제공이 가능한 체스나 바둑 환경과 같은 도전적인 도메인에서 대단한 성공을 거둠그러나 실제 문제들은 환경에 대한 dynamics가 복잡하고 알려져있지 않음본 논문에서는 MuZero 알고리즘을 소개tree based search를 leared model과 .. 2024. 9. 22. 이전 1 다음