논문 리뷰/Reinforcement Learning22 [RND] Exploration by Random Network Distillation Link: https://arxiv.org/abs/1810.12894Blog: https://openai.com/blog/reinforcement-learning-with-prediction-based-rewards/Official Code: https://github.com/openai/random-network-distillation1. Abstract구현이 쉽고 최소한의 추가 계산만 요구되는 exploration bonus 기법 소개Bonus → Neural Network (NN)에 의해 예측된 observation의 feature와 임의로 초기화 된 후 고정된 neural network를 통해 얻은 observation feature의 차이intrinsic과 extrinsic reward를 유연하.. 2024. 9. 11. [AGAC] Adversarially Guided Actor-Critic Link: https://arxiv.org/pdf/2102.04376.pdfOfficial Code: https://github.com/yfletberliac/adversarially-guided-actor-critic1. IntroductionActor-critic 기반 알고리즘의 경우 복잡한 환경에서 sample inefficiency 문제가 여전히 발생 → 특히 효율적인 exploration이 필요한 문제가 bottleneck제안하는 알고리즘! → Adversarially Guided Actor-Critic (AGAC): 더욱 포괄적인 exploration을 유도AGAC는 actor-critic 프레임워크를 재정의하여 세번째 요소인 adversary를 추가Adversary는 actor의 행동을 예측.. 2024. 9. 11. [R2D2] Recurrent Experience Replay in Distributed Reinforcement Learning Paper Link: https://openreview.net/pdf?id=r1lyTjAqYX1. Abstract최근에 강화학습에서의 분산 학습의 성공에 따라, 분산된 PER(Prioritized experience replay)로 부터 RNN기반의 RL agents를 학습 시키기 위한 방법을 탐구했다.We study the effects of parameter lag resulting in representational drift and recurrent state staleness and empirically derive an improved training strategy.representational drift (표현 이동)과 recurrent state staleness (recurrent st.. 2024. 9. 10. [APE-X] Distributed Prioritized Experience Replay Paper Link: https://arxiv.org/pdf/1803.00933.pdf1. Abstract본 논문은 강화학습을 위한 분산 구조를 제안Actors: 각자의 환경과 상호작용을 하며 shared neural network를 통해 행동을 결정, shared experience replay에 경험을 누적Learner: 경험들을 샘플링하여 neural network를 학습Prioritized experience replay를 사용하여 actor에 의해 생성된 데이터 중 중요한 데이터에 집중Arcade Learning Environment에서 성능을 검증하였으며 적은 시간의 학습만으로도 좋은 성능을 얻음2. Introduction딥러닝의 경우 더 큰 데이터셋과 더 강력한 모델을 사용하여 더 많은 연산.. 2024. 9. 10. 이전 1 2 3 4 다음