Link: https://arxiv.org/abs/2007.14430
0. Abstract
- Bootstrapping → RL의 핵심 요소
- 가치의 추정값으로 실제값을 대체하는 방식
- 현재 정책에 대한 추정이 bootstrap RL을 강화할 수 있음
- 본 논문의 core contribution은 매우 간단함
- 즉각적인 보상 (immediate reward)에 scaled log-policy를 더하는 것
- 이 변경을 DQN과 IQN에 적용 → Rainbow를 뛰어넘는 SOTA 성능 도출
- 해당 성능 향상의 이론적인 insight
- Implicit Kullback-Leibler regularization
- increase of action-gap
1. Introduction
- 대부분의 강화학습 알고리즘들은 Temporal Difference (TD) learning을 수행
- 이 과정에서 잘 알려진 bootstrapping 기법 사용
- 알 수 없는 실제값을 추정값으로 대체하고 이를 학습의 target으로 사용
- 본 논문의 core contribution은 매우 단순한 아이디어
- immediate reward를 scaled log-policy로 augment하고 이를 최적화
- Resulting policy의 expected return과 expected entropy를 모두 최대화 하는 것이 목적
- 이 접근법을 다음과 같이 명명
- Munchausen Reinforcement Learning (M-RL)
- M-DQN
- 이 아이디어를 Deep Q Network에 적용
- DQN은 stochastic policy를 계산하지 않아서 log-policy를 사용할 수 없지만 본 논문에서는 DQN에 maximum entropy RL을 적용하는 기법을 소개
- 또한 이를 통해 immediate reward에 scaled log-policy를 더하는 TD update 수행
- M-DQN은 처음으로 distribution을 사용하지 않고 distributional RL (C51)의 성능을 뛰어넘은 알고리즘
- 이를 Implicit Quantile Network (IQN)에 적용한 결과 (M-IQN)은 rainbow의 성능을 능가
- 이론적인 Insight
- 본 기법은 내재적으로 연속적인 policy 간의 Kullback-Leibler (KL) regularization 수행
- M-RL을 Conservative Value Iteration (CVI)와 Dynamic Policy Programming (DPP)와 연결 → Advantage Learning (AL)과 연결성을 찾고 action-gap에 M-RL이 미치는 영향을 살펴봄
2. Munchausen Reinforcement Learning
- 기본적인 MDP나 RL에 대한 설명은 생략하지만 본 논문에서는 softmax policies를 다음과 같이 사용
- $\pi=sm(q)=\pi(a|s)=\frac{\exp \ q(s,a)}{\sum_{a'}\exp \ q(s,a')}$
- 표준 RL의 학습 (TD Learning, Bootstrapping)
- 표준 RL agent는 q-function과 policy 사용 → optimal policy를 학습하는 것을 목표로 함
- 이를 위해 Temporal Difference (TD) 업데이트 사용
- 에이전트가 환경과 상호작용 하여 transition 정보 취득 ($s_t, a_t, r_t, s_{t+1}$)
- Bellman Equation을 사용하여 successive estimate 수행
- $q(s_t, a_t)=q(s_t, a_t)+\eta (r_t + \gamma \max_{a'} q_{*}(s_{t+1}, a')-q(s_t, a_t))$
- 이때 $q_*$는 알지 못하기 때문에 현재의 예측 $q$를 사용함 → Bootstrapping
- M-RL의 아이디어
- q-function만이 bootstrap RL에서 사용될 수 있는 요소는 아님
- 최적의 deterministic policy $\pi_*$를 알고있다고 가정해보자 → log-policy은 optimal action에 대해 0이고 sub-optimal action에 대해 $-\inf$이다.
- 이는 매우 강한 학습의 요소 → optimal control을 변화시키지 않고 이를 보상에 더하는 방식으로 학습
- Optimal policy $\pi_*$는 알지 못하므로 이를 현재의 예측 $\pi$로 대체
- M-RL의 아이디어 요약 → $r_t$를 $r_t+\alpha \ln \pi (a_t | s_t)$로 대체
- 일반적인 DQN의 학습
- Q-value는 online Q-network $q_{\theta}$에 의해 추정되고 이 네트워크의 가중치들은 target network $q_{\bar{\theta}}$로 주기적으로 복사됨
- 에이전트는 policy $\pi_{\theta} \in G(q_\theta)$를 따름 ($\epsilon$-greedy exploration 사용)
- transitions $(s_t, a_t, r_t, s_{t+1})$을 FIFO replay buffer $B$에 추가
- Stochastic gradient descent를 다음의 loss에 대해 수행
-
- 이때의 target $\hat{q}_{dqn}$
- M-DQN의 학습
- M-DQN은 regression target을 살짝 변경
- M-RL은 stochastic policy를 가정하는데 DQN은 Deterministic policy를 도출 → 단순한 방법은 return 뿐 아니라 resulting policy의 entropy도 maximize하는 것
- 이는 maximum entropy RL과 유사한 시점의 접근 → 이를 DQN에도 적용
- 이를 통해 Soft-DQN 에이전트를 도출 → 기존의 regression target을 다음과 같이 변경 ($\tau$는 temperature parameter)
-
- 기존 기법과 차이나는 부분을 파란색으로 표기
- 이는 Soft Actor-Critic (SAC)의 discrete action 버전과 다르지 않음 $\tau \rightarrow 0$ 이면 DQN
- M-DQN의 마지막 스텝은 reward에 scaled log-policy를 더하는 것 ($\alpha \in [0,1]$은 scaling factor)
- M-DQN의 regression target
-
- Soft DQN과의 차이점은 빨간색으로 표기
- DQN과의 차이점은 regression target을 $\hat{q}{dqn}$에서 $\hat{q}{m-dqn}$으로 변경하는 것
- M-DQN과 M-IQN의 성능
- DQN과 M-DQN 사이에서의 단순한 변경만으로도 아주 효율적인 결과를 가져온다는 것을 알 수 있음
- Fig. 1은 60개의 Atari 게임에서 다양한 에이전트의 성능을 보여줌
- M-DQN이 C51보다 좋은 성능을 보여주는 것이 인상적 → M-DQN은 distributional RL 기반이 아니면서 C51을 능가한 최초의 알고리즘
- 해당 기법을 IQN에 적용
- IQN의 경우 Q-function을 추정하지 않지만 distributional Bellman operator를 사용하여 distribution을 평균한 q-function을 도출
- 완전히 동일한 방법을 적용 → maximum entropy RL을 통해 soft-IQN 적용 → reward에 scaled log-policy를 더해줌
- M-RL을 적용한 IQN에는 3-step return 사용
- M-IQN은 rainbow의 성능을 능가하여 새로운 SOTA 알고리즘으로 사용
3. What happens under the hood?
- 수식적인 내용들 제외하고 해당 부분의 내용을 요약하면 다음과 같음
- 본 논문에서는 M-DQN을 abstract Approximate Dynamics Programming (ADP)로 고려
- 2가지 강력한 결론을 얻을 수 있음
- M-DQN은 내재적으로 연속적인 policies에 대해 KL regularization 수행
- Action-gap을 증가시켜서 approximation error를 다루는데 도움을 줌
4. Experiments
- Munchausen agents
- Dopamin의 DQN과 IQN을 이용하여 M-DQN과 M-DQN 각각 적용
- DQN에서는 optimizer를 RMSProp이 아닌 Adam을 사용
- Munchausen-specific modification
- log-policy term이 bound 되지 않은 경우 policy가 deterministic에 가까울 때 다양한 이슈 발생 가능
- $l_0 <0$으로 설정하여 $\tau \ln \pi(a|s)$를 $[\tau \ln \pi(a|s)]_{l_0}^{0}$으로 대체 ($[\cdot]_x^y$는 clipping function)
- 다양한 stability를 위해 log-policy의 계산에서 특정한 log-sum-exp trick을 사용 (App. B.1)
- log-policy term이 bound 되지 않은 경우 policy가 deterministic에 가까울 때 다양한 이슈 발생 가능
- 본 논문에서는 3가지의 파라미터 사용: $\alpha, \tau, l_0$
- 각각의 파라미터 값은 다음과 같이 설정: $\alpha = 0.9, \tau=0.03, l_0=-1$ → 모든 실험에 사용
- $\epsilon$-greedy 기법을 사용하여 환경과 상호작용
- Baselines
- DQN, IQN, C51, Rainbow
- Task
- ALE environment
- Metrics
- 200M frame 학습, 3 seed
- Baseline-normalized score를 metric으로 사용하여 성능 평가
- Action Gap
- Action gap → best와 second best action 사이에 estimated values 사이의 action gap
- M-DQN과 AL, Adam DQN에서 결과 확인
- M-DQN과 AL이 Adam DQN에 비해 action-gap이 증가
- AL이 더 증가하는 것으로 보이지만 덜 안정적으로 보임
- AL이 M-DQN보다 action gap이 크지만 성능이 좋지 않은 이유
- 중요한 것은 action gap의 값 자체가 아니라 state-action space에서의 uniformity
- 이것이 M-DQN이 AL에 비해 더 안정적인 action gap을 가지는 이유로 보임
- Ablation Study
- DQN → Adam DQN (+ Adam Optimizer) → Soft DQN (+ maximum entropy RL) → M-DQN (+ Munchausen term)
- Ablation
- Munchausen term 없이 maximum entropy RL만 사용 ($\alpha$=0) → Soft-DQN$(\tau)$
- M-DQN performs entropy regulation with implicit coefficient of $(1-\alpha)\tau$ → Soft-DQN$((1-\alpha)\tau)$
- 결과는 M-DQN이 다른 기법들에 비해 가장 우수한 성능을 보임
- Comparison to the baselines
- Per-game Improvements
- 53/60 for M-DQN vs DQN
- 40/60 for M-IQN vs IQN
5. Conclusion
- RL 알고리즘에 대한 단순한 extension → Munchausen RL
- 해당 기법은 RL 에이전트에 의해 계산된 정책의 scaled logarithm을 통해 즉각적인 보상을 augment
- DQN의 loss를 단순하게 변형한 해당 기법을 통해 큰 성능 향상을 이루어냄 → DQN의 경우 60개 중 53개의 환경에서 성능 향상을 이루어냄 → C51보다 향상된 성능
- Munchausen의 아이디어를 distributional RL인 IQN에 적용하여 Rainbow보다 좋은 성능 달성
- Munchausen DQN의 이론적인 기반
- 내재적으로 KL regularization 수행
- action gap을 증가시킴
- 강화학습의 핵심 요소에 대한 심도있는 재검토를 통해 심층 강화학습 알고리즘을 더욱 새롭고 효율적으로 이끌 수 있었음
-
'논문 리뷰 > Reinforcement Learning' 카테고리의 다른 글
[Sampled MuZero] Learning and Planning in Complex Action Spaces (0) | 2024.10.15 |
---|---|
[MuZero] Mastering Atari, Go Chess and Shogi by Planning with a Learned Model (2) | 2024.09.22 |
[RND] Exploration by Random Network Distillation (1) | 2024.09.13 |
[RND] Exploration by Random Network Distillation (5) | 2024.09.11 |
[AGAC] Adversarially Guided Actor-Critic (0) | 2024.09.11 |