본문 바로가기

논문 리뷰22

Stabilizing Off-Policy Q-Learning via Bootstrapping Error Reduction (BEAR) 논문 링크: https://arxiv.org/pdf/1906.00949.pdf 0. Abstract기존의 강화학습 기법을 적용하는 경우 추가적인 on-policy data 수집 없이는 성능이 제한적제안하는 문제 세팅: off policy 경험을 고정하고 환경과 상호작용이 없도록현재 instability의 주요 요소 → Bootstrapping error학습 데이터의 분포 바깥에 있는 데이터의 행동에 의해 boostrapping error 발생Bellman backup operator에 의해 누적제안하는 기법: Bootstrapping Error Accumulation Reduction (BEAR)행동 선택에 제한을 두어 backup이 이를 피할 수 있도록 함1. Introduction기존 강화학습의 한계.. 2024. 11. 27.
Batch Constrained Q-Learning (BCQ) Paper link: https://arxiv.org/pdf/1812.02900.pdfBCQ 구현 관련 사항총 4가지 모델 사용Generative model: $G_{\omega}(s)$Perturbation model: $\xi_{\phi}(s,a)$Q-networks: $Q_{\theta_1}, Q_{\theta_2}$AlgorithmGeneratorEncoder $E_{\omega_1}(s,a)$와 Decoder $D_{\omega_2}(s,a)$로 구성 → VAEEncoder는 $\mu, \sigma$를 도출 → z를 sampling → Decoder의 입력으로 s, z 사용 → action을 예측학습은 예측 action과 실제 action이 유사하도록, KL divergence를 통해 mu=0,.. 2024. 11. 26.
Understanding the World Through Action 논문 링크: https://arxiv.org/abs/2110.12543 0. Abstract머신러닝 기법은 아주 크고 다양한 데이터셋을 통해 아주 크고 high capacity model로 학습을 수행하는 것이 가장 효율적이에 따라 scale을 위한 bottleneck을 줄이는 방법을 찾기 시작이런 bottleneck 중 대표적인 것은 사람의 노력을 요구하는 것 → curating and labeling datasets결과적으로 최근에 주목을 받고 있는 것은 대량의 데이터를 수집할 수 있는 unlabeled data를 사용하는 것본 논문에서는 unlabeled data를 사용하기 위한 general, principled and powerful 프레임워크가 Reinforcement Learning을 통해 .. 2024. 11. 25.
World Models with Hints of Large Language Models for Goal Achieving Paper: https://arxiv.org/pdf/2406.073810. Abstract강화학습은 장기적인 (long-horizon) 문제나 목표가 희소한 (sparse) 환경에서는 수동으로 보상 설정을 하는 것의 어려움 때문에 학습이 잘 안됨기존 기법들은 이를 해결하기 위해 내적 보상 (intrinsic reward)을 사용하지만 큰 상태와 행동 공간을 가지는 장기적인 의사 결정 문제에서는 의미있게 가이드하지 못함 → 목적성 있는 탐험을 수행하지 못함본 논문에서는 멀티모달 모델 기반 강화학습을 제안 → Dreaming with Large Language Models (DLLM)언어 모델로부터 제안된 힌트 하위 목표를 모델 롤아웃 (rollouts)에 통합하여 목표를 달성하고 어려운 문제를 해결할 수 .. 2024. 11. 24.
EUREKA: Human-level Reward Design via Coding Large Language Models Paper: https://eureka-research.github.io/assets/eureka_paper.pdf프로젝트 페이지: https://eureka-research.github.io/깃허브: https://github.com/eureka-research/Eureka0. Abstract대형 언어 모델 (Large Language Model, LLM)은 순차적 의사 결정 문제를 위한 high-level semantic 플래너로서 좋은 성능을 보임그러나 펜돌리기 같은 복잡한 low-level의 제어 문제를 학습하는데 LMM을 활용하는 것은 아직 해결되지 않은 문제이런 근본적인 차이를 해결하기 위해 EUREKA 기법을 제안 → LLM을 통한 사람 수준의 보상 디자인 알고리즘EUREKA는 뛰어난 제로샷.. 2024. 11. 20.
Training Diffusion Models with Reinforcement Learning Paper: https://arxiv.org/pdf/2305.13301.pdf프로젝트 페이지: https://rl-diffusion.github.io/0. AbstractDiffusion 모델은 log-likelihood objective로 근사되어 학습한 유연한 생성 모델하지만 대부분의 diffusion 모델 사용시 likelihood가 고려되지 않고 인간이 인지하는 이미지의 품질이나 drug effectiveness (?) 같은 다운스트림 목표와 관련됨본 논문은 강화학습을 통해 diffusion 모델을 직접적으로 최적화하는 방법에 대해 설명노이즈 제거 과정을 다수의 단계에 대한 의사 결정 문제로 취급 → policy gradient 알고리즘을 사용할 수 있도록 함본 논문에서 제안하는 기법 -> Den.. 2024. 11. 16.