본문 바로가기
논문 리뷰/Reinforcement Learning

[M-RL] Munchausen Reinforcement Learning

by 박사개구리 2024. 9. 16.

Link: https://arxiv.org/abs/2007.14430

0. Abstract

  • Bootstrapping → RL의 핵심 요소
    • 가치의 추정값으로 실제값을 대체하는 방식
    • 현재 정책에 대한 추정이 bootstrap RL을 강화할 수 있음
  • 본 논문의 core contribution은 매우 간단함
    • 즉각적인 보상 (immediate reward)에 scaled log-policy를 더하는 것
  • 이 변경을 DQN과 IQN에 적용 → Rainbow를 뛰어넘는 SOTA 성능 도출
  • 해당 성능 향상의 이론적인 insight
    • Implicit Kullback-Leibler regularization
    • increase of action-gap

1. Introduction

  • 대부분의 강화학습 알고리즘들은 Temporal Difference (TD) learning을 수행
    • 이 과정에서 잘 알려진 bootstrapping 기법 사용
    • 알 수 없는 실제값을 추정값으로 대체하고 이를 학습의 target으로 사용
  • 본 논문의 core contribution은 매우 단순한 아이디어
    • immediate reward를 scaled log-policy로 augment하고 이를 최적화
    • Resulting policy의 expected return과 expected entropy를 모두 최대화 하는 것이 목적
  • 이 접근법을 다음과 같이 명명
    • Munchausen Reinforcement Learning (M-RL)
  • M-DQN
    • 이 아이디어를 Deep Q Network에 적용
    • DQN은 stochastic policy를 계산하지 않아서 log-policy를 사용할 수 없지만 본 논문에서는 DQN에 maximum entropy RL을 적용하는 기법을 소개
    • 또한 이를 통해 immediate reward에 scaled log-policy를 더하는 TD update 수행
    • M-DQN은 처음으로 distribution을 사용하지 않고 distributional RL (C51)의 성능을 뛰어넘은 알고리즘
  • 이를 Implicit Quantile Network (IQN)에 적용한 결과 (M-IQN)은 rainbow의 성능을 능가
  • 이론적인 Insight
    • 본 기법은 내재적으로 연속적인 policy 간의 Kullback-Leibler (KL) regularization 수행
    • M-RL을 Conservative Value Iteration (CVI)와 Dynamic Policy Programming (DPP)와 연결 → Advantage Learning (AL)과 연결성을 찾고 action-gap에 M-RL이 미치는 영향을 살펴봄

2. Munchausen Reinforcement Learning

  • 기본적인 MDP나 RL에 대한 설명은 생략하지만 본 논문에서는 softmax policies를 다음과 같이 사용
    • $\pi=sm(q)=\pi(a|s)=\frac{\exp \ q(s,a)}{\sum_{a'}\exp \ q(s,a')}$
  • 표준 RL의 학습 (TD Learning, Bootstrapping)
    • 표준 RL agent는 q-function과 policy 사용 → optimal policy를 학습하는 것을 목표로 함
    • 이를 위해 Temporal Difference (TD) 업데이트 사용
    • 에이전트가 환경과 상호작용 하여 transition 정보 취득 ($s_t, a_t, r_t, s_{t+1}$)
    • Bellman Equation을 사용하여 successive estimate 수행
      • $q(s_t, a_t)=q(s_t, a_t)+\eta (r_t + \gamma \max_{a'} q_{*}(s_{t+1}, a')-q(s_t, a_t))$
    • 이때 $q_*$는 알지 못하기 때문에 현재의 예측 $q$를 사용함 → Bootstrapping
  • M-RL의 아이디어
    • q-function만이 bootstrap RL에서 사용될 수 있는 요소는 아님
    • 최적의 deterministic policy $\pi_*$를 알고있다고 가정해보자 → log-policy은 optimal action에 대해 0이고 sub-optimal action에 대해 $-\inf$이다.
    • 이는 매우 강한 학습의 요소 → optimal control을 변화시키지 않고 이를 보상에 더하는 방식으로 학습
    • Optimal policy $\pi_*$는 알지 못하므로 이를 현재의 예측 $\pi$로 대체
    • M-RL의 아이디어 요약 → $r_t$를 $r_t+\alpha \ln \pi (a_t | s_t)$로 대체
  • 일반적인 DQN의 학습
    • Q-value는 online Q-network $q_{\theta}$에 의해 추정되고 이 네트워크의 가중치들은 target network $q_{\bar{\theta}}$로 주기적으로 복사됨
    • 에이전트는 policy $\pi_{\theta} \in G(q_\theta)$를 따름 ($\epsilon$-greedy exploration 사용)
    • transitions $(s_t, a_t, r_t, s_{t+1})$을 FIFO replay buffer $B$에 추가
    • Stochastic gradient descent를 다음의 loss에 대해 수행

    • 이때의 target $\hat{q}_{dqn}$

 

  • M-DQN의 학습
    • M-DQN은 regression target을 살짝 변경
    • M-RL은 stochastic policy를 가정하는데 DQN은 Deterministic policy를 도출 → 단순한 방법은 return 뿐 아니라 resulting policy의 entropy도 maximize하는 것
    • 이는 maximum entropy RL과 유사한 시점의 접근 → 이를 DQN에도 적용
    • 이를 통해 Soft-DQN 에이전트를 도출 → 기존의 regression target을 다음과 같이 변경 ($\tau$는 temperature parameter)

    • 기존 기법과 차이나는 부분을 파란색으로 표기
    • 이는 Soft Actor-Critic (SAC)의 discrete action 버전과 다르지 않음 $\tau \rightarrow 0$ 이면 DQN
    • M-DQN의 마지막 스텝은 reward에 scaled log-policy를 더하는 것 ($\alpha \in [0,1]$은 scaling factor)
    • M-DQN의 regression target

    • Soft DQN과의 차이점은 빨간색으로 표기
    • DQN과의 차이점은 regression target을 $\hat{q}{dqn}$에서 $\hat{q}{m-dqn}$으로 변경하는 것
  • M-DQN과 M-IQN의 성능
    • DQN과 M-DQN 사이에서의 단순한 변경만으로도 아주 효율적인 결과를 가져온다는 것을 알 수 있음
    • Fig. 1은 60개의 Atari 게임에서 다양한 에이전트의 성능을 보여줌

  • M-DQN이 C51보다 좋은 성능을 보여주는 것이 인상적 → M-DQN은 distributional RL 기반이 아니면서 C51을 능가한 최초의 알고리즘
  • 해당 기법을 IQN에 적용
    • IQN의 경우 Q-function을 추정하지 않지만 distributional Bellman operator를 사용하여 distribution을 평균한 q-function을 도출
    • 완전히 동일한 방법을 적용 → maximum entropy RL을 통해 soft-IQN 적용 → reward에 scaled log-policy를 더해줌
    • M-RL을 적용한 IQN에는 3-step return 사용
    • M-IQN은 rainbow의 성능을 능가하여 새로운 SOTA 알고리즘으로 사용

3. What happens under the hood?

  • 수식적인 내용들 제외하고 해당 부분의 내용을 요약하면 다음과 같음
    • 본 논문에서는 M-DQN을 abstract Approximate Dynamics Programming (ADP)로 고려
    • 2가지 강력한 결론을 얻을 수 있음
      • M-DQN은 내재적으로 연속적인 policies에 대해 KL regularization 수행
      • Action-gap을 증가시켜서 approximation error를 다루는데 도움을 줌

4. Experiments

  • Munchausen agents
    • Dopamin의 DQN과 IQN을 이용하여 M-DQN과 M-DQN 각각 적용
    • DQN에서는 optimizer를 RMSProp이 아닌 Adam을 사용
    • Munchausen-specific modification
      • log-policy term이 bound 되지 않은 경우 policy가 deterministic에 가까울 때 다양한 이슈 발생 가능
        • $l_0 <0$으로 설정하여 $\tau \ln \pi(a|s)$를 $[\tau \ln \pi(a|s)]_{l_0}^{0}$으로 대체 ($[\cdot]_x^y$는 clipping function)
      • 다양한 stability를 위해 log-policy의 계산에서 특정한 log-sum-exp trick을 사용 (App. B.1)
    • 본 논문에서는 3가지의 파라미터 사용: $\alpha, \tau, l_0$
      • 각각의 파라미터 값은 다음과 같이 설정: $\alpha = 0.9, \tau=0.03, l_0=-1$ → 모든 실험에 사용
    • $\epsilon$-greedy 기법을 사용하여 환경과 상호작용
  • Baselines
    • DQN, IQN, C51, Rainbow
  • Task
    • ALE environment
  • Metrics
    • 200M frame 학습, 3 seed
    • Baseline-normalized score를 metric으로 사용하여 성능 평가
  • Action Gap 
    • Action gap → best와 second best action 사이에 estimated values 사이의 action gap
    • M-DQN과 AL, Adam DQN에서 결과 확인
      • M-DQN과 AL이 Adam DQN에 비해 action-gap이 증가
      • AL이 더 증가하는 것으로 보이지만 덜 안정적으로 보임
    • AL이 M-DQN보다 action gap이 크지만 성능이 좋지 않은 이유
      • 중요한 것은 action gap의 값 자체가 아니라 state-action space에서의 uniformity
      • 이것이 M-DQN이 AL에 비해 더 안정적인 action gap을 가지는 이유로 보임

  • Ablation Study
    • DQN → Adam DQN (+ Adam Optimizer) → Soft DQN (+ maximum entropy RL) → M-DQN (+ Munchausen term)
    • Ablation
      • Munchausen term 없이 maximum entropy RL만 사용 ($\alpha$=0) → Soft-DQN$(\tau)$
      • M-DQN performs entropy regulation with implicit coefficient of $(1-\alpha)\tau$ → Soft-DQN$((1-\alpha)\tau)$
    • 결과는 M-DQN이 다른 기법들에 비해 가장 우수한 성능을 보임

  • Comparison to the baselines

  • Per-game Improvements
    • 53/60 for M-DQN vs DQN
    • 40/60 for M-IQN vs IQN

5. Conclusion

  • RL 알고리즘에 대한 단순한 extension → Munchausen RL
  • 해당 기법은 RL 에이전트에 의해 계산된 정책의 scaled logarithm을 통해 즉각적인 보상을 augment
  • DQN의 loss를 단순하게 변형한 해당 기법을 통해 큰 성능 향상을 이루어냄 → DQN의 경우 60개 중 53개의 환경에서 성능 향상을 이루어냄 → C51보다 향상된 성능
  • Munchausen의 아이디어를 distributional RL인 IQN에 적용하여 Rainbow보다 좋은 성능 달성
  • Munchausen DQN의 이론적인 기반
    • 내재적으로 KL regularization 수행
    • action gap을 증가시킴
  • 강화학습의 핵심 요소에 대한 심도있는 재검토를 통해 심층 강화학습 알고리즘을 더욱 새롭고 효율적으로 이끌 수 있었음
              •