논문 리뷰/Reinforcement Learning20 Collaborating with Humans without Human Data Paper: https://arxiv.org/pdf/2110.08176.pdf0. Abstract사람과 협력하는 것은 사람의 개별적인 강점, 약점, 선호에 빠르게 적응할 수 있는 능력을 요구불행하게도 Self-Play (SP)나 Population Play (PP)와 같은 대부분의 표준 멀티 에이전트 강화학습 기법들은 학습한 파트너에 대해 과적합 되기 때문에 사람에게 일반화하기 어려움이에 대한 대안으로 사람의 데이터를 수집한 뒤 Behavioral Cloning을 통해 사람 모델을 학습하고 해당 모델을 통해 “human aware” 에이전트를 학습할 수 있음 → Behavioral Cloning Play (BCP)이런 접근은 새로운 사람 공동 플레이어에 대한 일반화를 향상시키지만 번거로우면서도 많은 비용.. 2024. 11. 15. Deep Reinforcement Learning from Human Preference Paper: https://arxiv.org/pdf/1706.03741.pdf0. Abstract본 논문에서 제안하는 것 → 한쌍의 trajectory segment 사이에서 (비 전문가) 사람의 선호에 따라 학습의 목표를 정의이런 접근을 통해 보상함수에 대한 접근 없이 복잡한 강화학습 문제 (e.g. Atari, simulated robot locomotion)를 효과적으로 풀 수 있음환경과 상호작용하는 것에 비해 1%도 안되는 피드백만으로 에이전트 학습 가능사람의 감독에 따른 비용이 크게 감소하기 때문에 SOTA 강화학습 시스템에 실용적으로 적용이 가능기존의 사람 피드백을 통해 학습하던 기법들에 비해 더욱 복잡하고 새로운 행동을 1시간 안에 성공적으로 학습1. Introduction최근 강화학습은 보.. 2024. 11. 10. CLUTR: Curriculum Learning via Unsupervised Task Representation Learning - Paper: https://arxiv.org/pdf/2210.10243.pdf 0. Abstract강화학습 알고리즘은 일반적으로 샘플 비효율적 (sample inefficiency)이며 일반화가 어렵다고 알려짐최근 Unsupervised Environment Design (UED)가 zero-shot 일반화를 위한 새로운 패러다임으로 떠오름 → task 분포의 학습과 샘플링 된 task 들에서의 에이전트 정책 학습을 동시에 수행이는 고정되지 않은 (non-stationary) 과정으로 task 분포가 에이전트 정책과 함께 진화시킴과거의 연구들을 통해 일반화에 대한 개선을 이뤘지만 아직 task 공간에 대한 샘플 효율성을 개선하지는 못했음이에 따라 본 논문은 CLUTR 기법을 제안 → 새로운 커리큘럼 .. 2024. 11. 9. BYOL-Explore: Exploration by Bootstrapped Prediction Paper: https://arxiv.org/pdf/2206.08332.pdfBlog: https://www.deepmind.com/blog/byol-explore-exploration-with-bootstrapped-prediction0. AbstractBYOL-Explore 알고리즘 제안 → 시각적으로 복잡한 환경에서 curiosity-driven exploration을 위한 컨셉적으로 간단하면서도 일반적인 접근 방법추가적인 objective 없이 latent space에서 하나의 예측 loss로 world representation, world dynamics, exploration policy를 모두 한꺼번에 학습BYOL-Explore의 효율성을 검증하는 환경 → DM-HARD-8특징: parti.. 2024. 11. 3. Planning with Diffusion for Flexible Behavior Synthesis Paper: https://proceedings.mlr.press/v162/janner22a/janner22a.pdfBlog: https://diffusion-planning.github.io/0. Abstract기존의 Model-based RL 기법Dynamics model을 근사하기 위한 추정을 목적으로만 학습을 수행하고 의사 결정에 대한 나머지 부분은 고전적인 trajectory optimizer에게 떠넘김이런 결합은 컨셉적으로는 단순하지만 결점을 가지고 있음 → 학습된 모델이 표준적인 trajectory optimization과 맞지 않을 수 있음본 논문의 제안본 논문에서는 최대한 trajectory optimization 파이프라인을 modeling 문제에 섞는 방법을 제안 → model로부터의.. 2024. 11. 3. Estimating Risk and Uncertainty in Deep Reinforcement Learning Link: https://arxiv.org/pdf/1905.09638.pdf0. Abstract강화학습 에이전트는 2 종류의 uncertainty를 만나게 됨Epistemic Uncertainty: 데이터의 부족 때문에 발생 → exploration을 통해 해결 가능Aleatoric Uncertainty: 확률적인 환경에서 발생 → risk sensitive한 application에서 고려되어야 하는 부분본 논문에서는 학습된 Q 값에 대해 이런 uncertainty를 분리하여 추정하는 방법론을 제안Uncertainty-aware DQNMinAtar 테스트 환경에서 다른 DQN 기반 알고리즘보다 좋은 성능을 보였으며 안전하게 행동을 취하도록 학습1. Introduction강화학습에서 환경에 있는 epist.. 2024. 11. 3. 이전 1 2 3 4 다음