논문 리뷰34 CLUTR: Curriculum Learning via Unsupervised Task Representation Learning - Paper: https://arxiv.org/pdf/2210.10243.pdf 0. Abstract강화학습 알고리즘은 일반적으로 샘플 비효율적 (sample inefficiency)이며 일반화가 어렵다고 알려짐최근 Unsupervised Environment Design (UED)가 zero-shot 일반화를 위한 새로운 패러다임으로 떠오름 → task 분포의 학습과 샘플링 된 task 들에서의 에이전트 정책 학습을 동시에 수행이는 고정되지 않은 (non-stationary) 과정으로 task 분포가 에이전트 정책과 함께 진화시킴과거의 연구들을 통해 일반화에 대한 개선을 이뤘지만 아직 task 공간에 대한 샘플 효율성을 개선하지는 못했음이에 따라 본 논문은 CLUTR 기법을 제안 → 새로운 커리큘럼 .. 2024. 11. 9. SmartBrush: Text and Shape Guided Object Inpainting with Diffusion Model 논문 링크: https://arxiv.org/pdf/2212.050340. Abstract멀티모달 이미지 인페인팅 (Multi-modal Image Inpainting) → 인페인팅 되는 콘텐츠에 대해 더욱 유연하고 유용한 제어를 제공e.g. 물체에 대한 더욱 풍성한 특징을 설명하기 위해 텍스트 프롬프트를 사용할 수 있으며 마스크 (Mask)는 인페인팅 되는 물체의 모양을 제한하는데 사용본 논문에서는 새로운 확산 (Diffusion) 기반 모델인 SmartBrush를 제안 → 텍스트와 모양 (shape)에 대한 가이드를 사용하여 빈 영역을 물체로 채워줌DALL-E 2나 Stable Diffusion과 같은 이전의 기법들은 텍스트 기반 인페인팅은 가능하지만 모양에 대한 가이드는 제공하지 않아서 생성된 물체.. 2024. 11. 7. BYOL-Explore: Exploration by Bootstrapped Prediction Paper: https://arxiv.org/pdf/2206.08332.pdfBlog: https://www.deepmind.com/blog/byol-explore-exploration-with-bootstrapped-prediction0. AbstractBYOL-Explore 알고리즘 제안 → 시각적으로 복잡한 환경에서 curiosity-driven exploration을 위한 컨셉적으로 간단하면서도 일반적인 접근 방법추가적인 objective 없이 latent space에서 하나의 예측 loss로 world representation, world dynamics, exploration policy를 모두 한꺼번에 학습BYOL-Explore의 효율성을 검증하는 환경 → DM-HARD-8특징: parti.. 2024. 11. 3. Planning with Diffusion for Flexible Behavior Synthesis Paper: https://proceedings.mlr.press/v162/janner22a/janner22a.pdfBlog: https://diffusion-planning.github.io/0. Abstract기존의 Model-based RL 기법Dynamics model을 근사하기 위한 추정을 목적으로만 학습을 수행하고 의사 결정에 대한 나머지 부분은 고전적인 trajectory optimizer에게 떠넘김이런 결합은 컨셉적으로는 단순하지만 결점을 가지고 있음 → 학습된 모델이 표준적인 trajectory optimization과 맞지 않을 수 있음본 논문의 제안본 논문에서는 최대한 trajectory optimization 파이프라인을 modeling 문제에 섞는 방법을 제안 → model로부터의.. 2024. 11. 3. Estimating Risk and Uncertainty in Deep Reinforcement Learning Link: https://arxiv.org/pdf/1905.09638.pdf0. Abstract강화학습 에이전트는 2 종류의 uncertainty를 만나게 됨Epistemic Uncertainty: 데이터의 부족 때문에 발생 → exploration을 통해 해결 가능Aleatoric Uncertainty: 확률적인 환경에서 발생 → risk sensitive한 application에서 고려되어야 하는 부분본 논문에서는 학습된 Q 값에 대해 이런 uncertainty를 분리하여 추정하는 방법론을 제안Uncertainty-aware DQNMinAtar 테스트 환경에서 다른 DQN 기반 알고리즘보다 좋은 성능을 보였으며 안전하게 행동을 취하도록 학습1. Introduction강화학습에서 환경에 있는 epist.. 2024. 11. 3. Kolors: Effective Training of Diffusion Model for Photorealistic Text-to-Image Synthesis 논문 링크: https://github.com/Kwai-Kolors/Kolors/blob/master/imgs/Kolors_paper.pdf깃허브: https://github.com/Kwai-Kolors/Kolors0. AbstractText-to-Image 합성을 위한 잠재 확산 모델 (Latent diffusion model) Kolors를 소개!Kolors의 특징영어와 중국어에 대한 심도있는 이해실제와 같은 인상적인 이미지Kolors 개발을 위한 3가지 주요 요소언어 능력 향상대형 언어 모델을 Stable Diffusion 3나 Imagen에서 사용된 T5가 아닌 General Language Model (GLM)을 사용 → 영어와 중국어 모두에 대한 이해 능력을 향상학습 데이터에 대한 텍스트 캡셔.. 2024. 10. 21. 이전 1 2 3 4 5 6 다음