전체 글34 [Sampled MuZero] Learning and Planning in Complex Action Spaces Link: https://arxiv.org/pdf/2104.06303.pdf0. Abstract많은 중요한 실생활의 문제들은 높은 차원의, 혹은 연속적인 행동 공간을 가짐 → 이 모든 행동을 다 살펴보는 것은 불가능!대신에 policy evaluation과 improvement를 위해 작은 행동의 subset만 샘플링하는 것은 가능본 논문에서는 이렇게 샘플링 된 행동의 subset에 대해 policy evaluation과 improvement를 수행하는 general framework 제안이 sample 기반 policy iteration framework는 policy iteration을 기반으로 하는 어떤 강화학습 알고리즘에도 적용될 수 있음본 논문은 Sampled MuZero 알고리즘을 제안 → M.. 2024. 10. 15. The Chosen One: Consistent Characters in Text-to-Image Diffusion Models 논문 링크: https://arxiv.org/pdf/2311.100930. Abstract최근 text-to-image 생성 모델은 다양한 시각적인 창의성을 발휘할 수 있도록 했지만 스토리 시각화, 게임 개발, 에셋 디자인, 광고 등과 같은 실생활 문제들에 적용될 수 있는 일관된 캐릭터 (consistent character) 생성에는 어려움이 있음본 논문에서는 일관된 캐릭터 생성을 자동으로 수행할 수 있는 기법을 제안입력으로는 오직 텍스트 프롬프트만을 사용반복적인 과정을 수행하며 각 단계마다 유사한 특성을 가지는 연관된 이미지 세트를 식별하고 해당 세트로부터 일관된 특성을 추출정량적 결과에서 프롬프트 일치도와 특성 유지 사이에서 기존 베이스라인 기법들보다 더 균형있는 결과를 보임1. Introducti.. 2024. 10. 15. [MuZero] Mastering Atari, Go Chess and Shogi by Planning with a Learned Model Link: https://www.nature.com/articles/s41586-020-03051-4#MOESM1ArXiv link: https://arxiv.org/pdf/1911.08265.pdfSudo Codepseudocode.py0. AbstractPlanning 능력을 가진 에이전트를 구축하는 것은 인공지능이 오랫동안 추구해 온 main challenge 중 하나Tree-based planning 기법의 경우 perfect simulation의 제공이 가능한 체스나 바둑 환경과 같은 도전적인 도메인에서 대단한 성공을 거둠그러나 실제 문제들은 환경에 대한 dynamics가 복잡하고 알려져있지 않음본 논문에서는 MuZero 알고리즘을 소개tree based search를 leared model과 .. 2024. 9. 22. DreamBooth: FineTuning Text-to-Image Diffusion Models for Subject-Driven Generation 논문 링크: https://arxiv.org/pdf/2208.12242프로젝트 페이지: https://dreambooth.github.io/ DreamBoothDreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation Nataniel Ruiz Yuanzhen Li Varun Jampani Yael Pritch Michael Rubinstein Kfir Aberman Google Research It’s like a photo booth, but once the subject is captured, it can bedreambooth.github.io0. Abstract대형 text-to-image 모델은 텍스트 .. 2024. 9. 21. [M-RL] Munchausen Reinforcement Learning Link: https://arxiv.org/abs/2007.14430Official Code: https://github.com/google-research/google-research/tree/master/munchausen_rl0. AbstractBootstrapping → RL의 핵심 요소가치의 추정값으로 실제값을 대체하는 방식현재 정책에 대한 추정이 bootstrap RL을 강화할 수 있음본 논문의 core contribution은 매우 간단함즉각적인 보상 (immediate reward)에 scaled log-policy를 더하는 것이 변경을 DQN과 IQN에 적용 → Rainbow를 뛰어넘는 SOTA 성능 도출해당 성능 향상의 이론적인 insightImplicit Kullback-Leible.. 2024. 9. 16. [RND] Exploration by Random Network Distillation Link: https://arxiv.org/abs/1810.12894Blog: https://openai.com/blog/reinforcement-learning-with-prediction-based-rewards/Official Code: https://github.com/openai/random-network-distillation GitHub - openai/random-network-distillation: Code for the paper "Exploration by Random Network Distillation"Code for the paper "Exploration by Random Network Distillation" - openai/random-network-distillatio.. 2024. 9. 13. 이전 1 2 3 4 5 6 다음