본문 바로가기

논문 리뷰27

[RND] Exploration by Random Network Distillation Link: https://arxiv.org/abs/1810.12894Blog: https://openai.com/blog/reinforcement-learning-with-prediction-based-rewards/Official Code: https://github.com/openai/random-network-distillation1. Abstract구현이 쉽고 최소한의 추가 계산만 요구되는 exploration bonus 기법 소개Bonus → Neural Network (NN)에 의해 예측된 observation의 feature와 임의로 초기화 된 후 고정된 neural network를 통해 얻은 observation feature의 차이intrinsic과 extrinsic reward를 유연하.. 2024. 9. 11.
[AGAC] Adversarially Guided Actor-Critic Link: https://arxiv.org/pdf/2102.04376.pdfOfficial Code: https://github.com/yfletberliac/adversarially-guided-actor-critic1. IntroductionActor-critic 기반 알고리즘의 경우 복잡한 환경에서 sample inefficiency 문제가 여전히 발생 → 특히 효율적인 exploration이 필요한 문제가 bottleneck제안하는 알고리즘! → Adversarially Guided Actor-Critic (AGAC): 더욱 포괄적인 exploration을 유도AGAC는 actor-critic 프레임워크를 재정의하여 세번째 요소인 adversary를 추가Adversary는 actor의 행동을 예측.. 2024. 9. 11.
[R2D2] Recurrent Experience Replay in Distributed Reinforcement Learning Paper Link: https://openreview.net/pdf?id=r1lyTjAqYX1. Abstract최근에 강화학습에서의 분산 학습의 성공에 따라, 분산된 PER(Prioritized experience replay)로 부터 RNN기반의 RL agents를 학습 시키기 위한 방법을 탐구했다.We study the effects of parameter lag resulting in representational drift and recurrent state staleness and empirically derive an improved training strategy.representational drift (표현 이동)과 recurrent state staleness (recurrent st.. 2024. 9. 10.