본문 바로가기

rl19

Collaborating with Humans without Human Data Paper: https://arxiv.org/pdf/2110.08176.pdf0. Abstract사람과 협력하는 것은 사람의 개별적인 강점, 약점, 선호에 빠르게 적응할 수 있는 능력을 요구불행하게도 Self-Play (SP)나 Population Play (PP)와 같은 대부분의 표준 멀티 에이전트 강화학습 기법들은 학습한 파트너에 대해 과적합 되기 때문에 사람에게 일반화하기 어려움이에 대한 대안으로 사람의 데이터를 수집한 뒤 Behavioral Cloning을 통해 사람 모델을 학습하고 해당 모델을 통해 “human aware” 에이전트를 학습할 수 있음 → Behavioral Cloning Play (BCP)이런 접근은 새로운 사람 공동 플레이어에 대한 일반화를 향상시키지만 번거로우면서도 많은 비용.. 2024. 11. 15.
CLUTR: Curriculum Learning via Unsupervised Task Representation Learning - Paper: https://arxiv.org/pdf/2210.10243.pdf 0. Abstract강화학습 알고리즘은 일반적으로 샘플 비효율적 (sample inefficiency)이며 일반화가 어렵다고 알려짐최근 Unsupervised Environment Design (UED)가 zero-shot 일반화를 위한 새로운 패러다임으로 떠오름 → task 분포의 학습과 샘플링 된 task 들에서의 에이전트 정책 학습을 동시에 수행이는 고정되지 않은 (non-stationary) 과정으로 task 분포가 에이전트 정책과 함께 진화시킴과거의 연구들을 통해 일반화에 대한 개선을 이뤘지만 아직 task 공간에 대한 샘플 효율성을 개선하지는 못했음이에 따라 본 논문은 CLUTR 기법을 제안 → 새로운 커리큘럼 .. 2024. 11. 9.
BYOL-Explore: Exploration by Bootstrapped Prediction Paper: https://arxiv.org/pdf/2206.08332.pdfBlog: https://www.deepmind.com/blog/byol-explore-exploration-with-bootstrapped-prediction0. AbstractBYOL-Explore 알고리즘 제안 → 시각적으로 복잡한 환경에서 curiosity-driven exploration을 위한 컨셉적으로 간단하면서도 일반적인 접근 방법추가적인 objective 없이 latent space에서 하나의 예측 loss로 world representation, world dynamics, exploration policy를 모두 한꺼번에 학습BYOL-Explore의 효율성을 검증하는 환경 → DM-HARD-8특징: parti.. 2024. 11. 3.
Planning with Diffusion for Flexible Behavior Synthesis Paper: https://proceedings.mlr.press/v162/janner22a/janner22a.pdfBlog: https://diffusion-planning.github.io/0. Abstract기존의 Model-based RL 기법Dynamics model을 근사하기 위한 추정을 목적으로만 학습을 수행하고 의사 결정에 대한 나머지 부분은 고전적인 trajectory optimizer에게 떠넘김이런 결합은 컨셉적으로는 단순하지만 결점을 가지고 있음 → 학습된 모델이 표준적인 trajectory optimization과 맞지 않을 수 있음본 논문의 제안본 논문에서는 최대한 trajectory optimization 파이프라인을 modeling 문제에 섞는 방법을 제안 → model로부터의.. 2024. 11. 3.
Estimating Risk and Uncertainty in Deep Reinforcement Learning Link: https://arxiv.org/pdf/1905.09638.pdf0. Abstract강화학습 에이전트는 2 종류의 uncertainty를 만나게 됨Epistemic Uncertainty: 데이터의 부족 때문에 발생 → exploration을 통해 해결 가능Aleatoric Uncertainty: 확률적인 환경에서 발생 → risk sensitive한 application에서 고려되어야 하는 부분본 논문에서는 학습된 Q 값에 대해 이런 uncertainty를 분리하여 추정하는 방법론을 제안Uncertainty-aware DQNMinAtar 테스트 환경에서 다른 DQN 기반 알고리즘보다 좋은 성능을 보였으며 안전하게 행동을 취하도록 학습1. Introduction강화학습에서 환경에 있는 epist.. 2024. 11. 3.
[Sampled MuZero] Learning and Planning in Complex Action Spaces Link: https://arxiv.org/pdf/2104.06303.pdf0. Abstract많은 중요한 실생활의 문제들은 높은 차원의, 혹은 연속적인 행동 공간을 가짐 → 이 모든 행동을 다 살펴보는 것은 불가능!대신에 policy evaluation과 improvement를 위해 작은 행동의 subset만 샘플링하는 것은 가능본 논문에서는 이렇게 샘플링 된 행동의 subset에 대해 policy evaluation과 improvement를 수행하는 general framework 제안이 sample 기반 policy iteration framework는 policy iteration을 기반으로 하는 어떤 강화학습 알고리즘에도 적용될 수 있음본 논문은 Sampled MuZero 알고리즘을 제안 → M.. 2024. 10. 15.