Paper link: https://arxiv.org/pdf/1812.02900.pdf
BCQ 구현 관련 사항
- 총 4가지 모델 사용
- Generative model: Gω(s)Gω(s)
- Perturbation model: ξϕ(s,a)ξϕ(s,a)
- Q-networks: Qθ1,Qθ2Qθ1,Qθ2
- Algorithm
Generator
- Encoder Eω1(s,a)Eω1(s,a)와 Decoder Dω2(s,a)Dω2(s,a)로 구성 → VAE
- Encoder는 μ,σμ,σ를 도출 → z를 sampling → Decoder의 입력으로 s, z 사용 → action을 예측
- 학습은 예측 action과 실제 action이 유사하도록, KL divergence를 통해 mu=0, sig=1이 되도록 학습
- Generator를 통해 n개의 action 도출
Perturbation Network
- Generator가 도출한 action에 noise 추가 → {ai=ai+ξϕ(s′,ai,Φ)}
- Perturbation이 추가된 action의 Q가 최대가 되도록 학습
- ϕ←argmaxϕ∑Qθ1(s,a+ξϕ(s,a,Φ)),a∼Gω(s)
- Perturbation network의 경우 target network 사용 (soft update)
- ϕ′←τϕ+(1−τ)ϕ
Q-Network
- 일반 Q value 학습과 동일
- θ←argminθ∑(y−Qθ(s,a))2
- Q-network도 target network 사용 (soft update)
- θ′i←τθ+(1−τ)θ′i
내용 정리











'논문 리뷰 > Offline RL' 카테고리의 다른 글
Stabilizing Off-Policy Q-Learning via Bootstrapping Error Reduction (BEAR) (1) | 2024.11.27 |
---|---|
Understanding the World Through Action (0) | 2024.11.25 |