본문 바로가기

분류 전체보기37

Planning with Diffusion for Flexible Behavior Synthesis Paper: https://proceedings.mlr.press/v162/janner22a/janner22a.pdfBlog: https://diffusion-planning.github.io/0. Abstract기존의 Model-based RL 기법Dynamics model을 근사하기 위한 추정을 목적으로만 학습을 수행하고 의사 결정에 대한 나머지 부분은 고전적인 trajectory optimizer에게 떠넘김이런 결합은 컨셉적으로는 단순하지만 결점을 가지고 있음 → 학습된 모델이 표준적인 trajectory optimization과 맞지 않을 수 있음본 논문의 제안본 논문에서는 최대한 trajectory optimization 파이프라인을 modeling 문제에 섞는 방법을 제안 → model로부터의.. 2024. 11. 3.
Estimating Risk and Uncertainty in Deep Reinforcement Learning Link: https://arxiv.org/pdf/1905.09638.pdf0. Abstract강화학습 에이전트는 2 종류의 uncertainty를 만나게 됨Epistemic Uncertainty: 데이터의 부족 때문에 발생 → exploration을 통해 해결 가능Aleatoric Uncertainty: 확률적인 환경에서 발생 → risk sensitive한 application에서 고려되어야 하는 부분본 논문에서는 학습된 Q 값에 대해 이런 uncertainty를 분리하여 추정하는 방법론을 제안Uncertainty-aware DQNMinAtar 테스트 환경에서 다른 DQN 기반 알고리즘보다 좋은 성능을 보였으며 안전하게 행동을 취하도록 학습1. Introduction강화학습에서 환경에 있는 epist.. 2024. 11. 3.
Kolors: Effective Training of Diffusion Model for Photorealistic Text-to-Image Synthesis 논문 링크: https://github.com/Kwai-Kolors/Kolors/blob/master/imgs/Kolors_paper.pdf깃허브: https://github.com/Kwai-Kolors/Kolors0. AbstractText-to-Image 합성을 위한 잠재 확산 모델 (Latent diffusion model) Kolors를 소개!Kolors의 특징영어와 중국어에 대한 심도있는 이해실제와 같은 인상적인 이미지Kolors 개발을 위한 3가지 주요 요소언어 능력 향상대형 언어 모델을 Stable Diffusion 3나 Imagen에서 사용된 T5가 아닌 General Language Model (GLM)을 사용 → 영어와 중국어 모두에 대한 이해 능력을 향상학습 데이터에 대한 텍스트 캡셔.. 2024. 10. 21.
[Sampled MuZero] Learning and Planning in Complex Action Spaces Link: https://arxiv.org/pdf/2104.06303.pdf0. Abstract많은 중요한 실생활의 문제들은 높은 차원의, 혹은 연속적인 행동 공간을 가짐 → 이 모든 행동을 다 살펴보는 것은 불가능!대신에 policy evaluation과 improvement를 위해 작은 행동의 subset만 샘플링하는 것은 가능본 논문에서는 이렇게 샘플링 된 행동의 subset에 대해 policy evaluation과 improvement를 수행하는 general framework 제안이 sample 기반 policy iteration framework는 policy iteration을 기반으로 하는 어떤 강화학습 알고리즘에도 적용될 수 있음본 논문은 Sampled MuZero 알고리즘을 제안 → M.. 2024. 10. 15.
The Chosen One: Consistent Characters in Text-to-Image Diffusion Models 논문 링크: https://arxiv.org/pdf/2311.100930. Abstract최근 text-to-image 생성 모델은 다양한 시각적인 창의성을 발휘할 수 있도록 했지만 스토리 시각화, 게임 개발, 에셋 디자인, 광고 등과 같은 실생활 문제들에 적용될 수 있는 일관된 캐릭터 (consistent character) 생성에는 어려움이 있음본 논문에서는 일관된 캐릭터 생성을 자동으로 수행할 수 있는 기법을 제안입력으로는 오직 텍스트 프롬프트만을 사용반복적인 과정을 수행하며 각 단계마다 유사한 특성을 가지는 연관된 이미지 세트를 식별하고 해당 세트로부터 일관된 특성을 추출정량적 결과에서 프롬프트 일치도와 특성 유지 사이에서 기존 베이스라인 기법들보다 더 균형있는 결과를 보임1. Introducti.. 2024. 10. 15.
[MuZero] Mastering Atari, Go Chess and Shogi by Planning with a Learned Model Link: https://www.nature.com/articles/s41586-020-03051-4#MOESM1ArXiv link: https://arxiv.org/pdf/1911.08265.pdfSudo Codepseudocode.py0. AbstractPlanning 능력을 가진 에이전트를 구축하는 것은 인공지능이 오랫동안 추구해 온 main challenge 중 하나Tree-based planning 기법의 경우 perfect simulation의 제공이 가능한 체스나 바둑 환경과 같은 도전적인 도메인에서 대단한 성공을 거둠그러나 실제 문제들은 환경에 대한 dynamics가 복잡하고 알려져있지 않음본 논문에서는 MuZero 알고리즘을 소개tree based search를 leared model과 .. 2024. 9. 22.