논문 리뷰22 Estimating Risk and Uncertainty in Deep Reinforcement Learning Link: https://arxiv.org/pdf/1905.09638.pdf0. Abstract강화학습 에이전트는 2 종류의 uncertainty를 만나게 됨Epistemic Uncertainty: 데이터의 부족 때문에 발생 → exploration을 통해 해결 가능Aleatoric Uncertainty: 확률적인 환경에서 발생 → risk sensitive한 application에서 고려되어야 하는 부분본 논문에서는 학습된 Q 값에 대해 이런 uncertainty를 분리하여 추정하는 방법론을 제안Uncertainty-aware DQNMinAtar 테스트 환경에서 다른 DQN 기반 알고리즘보다 좋은 성능을 보였으며 안전하게 행동을 취하도록 학습1. Introduction강화학습에서 환경에 있는 epist.. 2024. 11. 3. Kolors: Effective Training of Diffusion Model for Photorealistic Text-to-Image Synthesis 논문 링크: https://github.com/Kwai-Kolors/Kolors/blob/master/imgs/Kolors_paper.pdf깃허브: https://github.com/Kwai-Kolors/Kolors0. AbstractText-to-Image 합성을 위한 잠재 확산 모델 (Latent diffusion model) Kolors를 소개!Kolors의 특징영어와 중국어에 대한 심도있는 이해실제와 같은 인상적인 이미지Kolors 개발을 위한 3가지 주요 요소언어 능력 향상대형 언어 모델을 Stable Diffusion 3나 Imagen에서 사용된 T5가 아닌 General Language Model (GLM)을 사용 → 영어와 중국어 모두에 대한 이해 능력을 향상학습 데이터에 대한 텍스트 캡셔.. 2024. 10. 21. [MuZero] Mastering Atari, Go Chess and Shogi by Planning with a Learned Model Link: https://www.nature.com/articles/s41586-020-03051-4#MOESM1ArXiv link: https://arxiv.org/pdf/1911.08265.pdfSudo Codepseudocode.py0. AbstractPlanning 능력을 가진 에이전트를 구축하는 것은 인공지능이 오랫동안 추구해 온 main challenge 중 하나Tree-based planning 기법의 경우 perfect simulation의 제공이 가능한 체스나 바둑 환경과 같은 도전적인 도메인에서 대단한 성공을 거둠그러나 실제 문제들은 환경에 대한 dynamics가 복잡하고 알려져있지 않음본 논문에서는 MuZero 알고리즘을 소개tree based search를 leared model과 .. 2024. 9. 22. DreamBooth: FineTuning Text-to-Image Diffusion Models for Subject-Driven Generation 논문 링크: https://arxiv.org/pdf/2208.12242프로젝트 페이지: https://dreambooth.github.io/ DreamBoothDreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation Nataniel Ruiz Yuanzhen Li Varun Jampani Yael Pritch Michael Rubinstein Kfir Aberman Google Research It’s like a photo booth, but once the subject is captured, it can bedreambooth.github.io0. Abstract대형 text-to-image 모델은 텍스트 .. 2024. 9. 21. [M-RL] Munchausen Reinforcement Learning Link: https://arxiv.org/abs/2007.14430Official Code: https://github.com/google-research/google-research/tree/master/munchausen_rl0. AbstractBootstrapping → RL의 핵심 요소가치의 추정값으로 실제값을 대체하는 방식현재 정책에 대한 추정이 bootstrap RL을 강화할 수 있음본 논문의 core contribution은 매우 간단함즉각적인 보상 (immediate reward)에 scaled log-policy를 더하는 것이 변경을 DQN과 IQN에 적용 → Rainbow를 뛰어넘는 SOTA 성능 도출해당 성능 향상의 이론적인 insightImplicit Kullback-Leible.. 2024. 9. 16. [RND] Exploration by Random Network Distillation Link: https://arxiv.org/abs/1810.12894Blog: https://openai.com/blog/reinforcement-learning-with-prediction-based-rewards/Official Code: https://github.com/openai/random-network-distillation GitHub - openai/random-network-distillation: Code for the paper "Exploration by Random Network Distillation"Code for the paper "Exploration by Random Network Distillation" - openai/random-network-distillatio.. 2024. 9. 13. 이전 1 2 3 4 다음