본문 바로가기

분류 전체보기38

[MuZero] Mastering Atari, Go Chess and Shogi by Planning with a Learned Model Link: https://www.nature.com/articles/s41586-020-03051-4#MOESM1ArXiv link: https://arxiv.org/pdf/1911.08265.pdfSudo Codepseudocode.py0. AbstractPlanning 능력을 가진 에이전트를 구축하는 것은 인공지능이 오랫동안 추구해 온 main challenge 중 하나Tree-based planning 기법의 경우 perfect simulation의 제공이 가능한 체스나 바둑 환경과 같은 도전적인 도메인에서 대단한 성공을 거둠그러나 실제 문제들은 환경에 대한 dynamics가 복잡하고 알려져있지 않음본 논문에서는 MuZero 알고리즘을 소개tree based search를 leared model과 .. 2024. 9. 22.
DreamBooth: FineTuning Text-to-Image Diffusion Models for Subject-Driven Generation 논문 링크: https://arxiv.org/pdf/2208.12242프로젝트 페이지: https://dreambooth.github.io/ DreamBoothDreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation Nataniel Ruiz Yuanzhen Li Varun Jampani Yael Pritch Michael Rubinstein Kfir Aberman Google Research It’s like a photo booth, but once the subject is captured, it can bedreambooth.github.io0. Abstract대형 text-to-image 모델은 텍스트 .. 2024. 9. 21.
[M-RL] Munchausen Reinforcement Learning Link: https://arxiv.org/abs/2007.14430Official Code: https://github.com/google-research/google-research/tree/master/munchausen_rl0. AbstractBootstrapping → RL의 핵심 요소가치의 추정값으로 실제값을 대체하는 방식현재 정책에 대한 추정이 bootstrap RL을 강화할 수 있음본 논문의 core contribution은 매우 간단함즉각적인 보상 (immediate reward)에 scaled log-policy를 더하는 것이 변경을 DQN과 IQN에 적용 → Rainbow를 뛰어넘는 SOTA 성능 도출해당 성능 향상의 이론적인 insightImplicit Kullback-Leible.. 2024. 9. 16.
[RND] Exploration by Random Network Distillation Link: https://arxiv.org/abs/1810.12894Blog: https://openai.com/blog/reinforcement-learning-with-prediction-based-rewards/Official Code: https://github.com/openai/random-network-distillation  GitHub - openai/random-network-distillation: Code for the paper "Exploration by Random Network Distillation"Code for the paper "Exploration by Random Network Distillation" - openai/random-network-distillatio.. 2024. 9. 13.
IP-Adapter: Text Compatible Image Prompt Adapter forText-to-Image Diffusion Models 논문 링크: https://arxiv.org/pdf/2308.06721깃허브: https://github.com/tencent-ailab/IP-Adapter프로젝트 페이지: https://ip-adapter.github.io/  0. Abstract최근 text-to-image 확산 모델 (diffusion model)은 고품질의 이미지 생성에 강력한 생성 성능을 보임그러나 텍스트 프롬프트만으로는 원하는 이미지를 생성하기가 매우 어려우며 종종 복잡한 프롬프트 엔지니어링을 요구이에 따라 텍스트 프롬프트 대신 이미지 프롬프트를 사용하는 것을 생각할 수 있음 → 천개의 단어보다 하나의 이미지가 더 좋다!기존의 기법: 사전학습 된 모델을 직접적으로 파인튜닝 → 효율적이지만 많은 계산 자원이 필요하며 다른 기반 .. 2024. 9. 13.
[RND] Exploration by Random Network Distillation Link: https://arxiv.org/abs/1810.12894Blog: https://openai.com/blog/reinforcement-learning-with-prediction-based-rewards/Official Code: https://github.com/openai/random-network-distillation1. Abstract구현이 쉽고 최소한의 추가 계산만 요구되는 exploration bonus 기법 소개Bonus → Neural Network (NN)에 의해 예측된 observation의 feature와 임의로 초기화 된 후 고정된 neural network를 통해 얻은 observation feature의 차이intrinsic과 extrinsic reward를 유연하.. 2024. 9. 11.