본문 바로가기

논문 리뷰34

IP-Adapter: Text Compatible Image Prompt Adapter forText-to-Image Diffusion Models 논문 링크: https://arxiv.org/pdf/2308.06721깃허브: https://github.com/tencent-ailab/IP-Adapter프로젝트 페이지: https://ip-adapter.github.io/  0. Abstract최근 text-to-image 확산 모델 (diffusion model)은 고품질의 이미지 생성에 강력한 생성 성능을 보임그러나 텍스트 프롬프트만으로는 원하는 이미지를 생성하기가 매우 어려우며 종종 복잡한 프롬프트 엔지니어링을 요구이에 따라 텍스트 프롬프트 대신 이미지 프롬프트를 사용하는 것을 생각할 수 있음 → 천개의 단어보다 하나의 이미지가 더 좋다!기존의 기법: 사전학습 된 모델을 직접적으로 파인튜닝 → 효율적이지만 많은 계산 자원이 필요하며 다른 기반 .. 2024. 9. 13.
[RND] Exploration by Random Network Distillation Link: https://arxiv.org/abs/1810.12894Blog: https://openai.com/blog/reinforcement-learning-with-prediction-based-rewards/Official Code: https://github.com/openai/random-network-distillation1. Abstract구현이 쉽고 최소한의 추가 계산만 요구되는 exploration bonus 기법 소개Bonus → Neural Network (NN)에 의해 예측된 observation의 feature와 임의로 초기화 된 후 고정된 neural network를 통해 얻은 observation feature의 차이intrinsic과 extrinsic reward를 유연하.. 2024. 9. 11.
[AGAC] Adversarially Guided Actor-Critic Link: https://arxiv.org/pdf/2102.04376.pdfOfficial Code: https://github.com/yfletberliac/adversarially-guided-actor-critic1. IntroductionActor-critic 기반 알고리즘의 경우 복잡한 환경에서 sample inefficiency 문제가 여전히 발생 → 특히 효율적인 exploration이 필요한 문제가 bottleneck제안하는 알고리즘! → Adversarially Guided Actor-Critic (AGAC): 더욱 포괄적인 exploration을 유도AGAC는 actor-critic 프레임워크를 재정의하여 세번째 요소인 adversary를 추가Adversary는 actor의 행동을 예측.. 2024. 9. 11.
[R2D2] Recurrent Experience Replay in Distributed Reinforcement Learning Paper Link: https://openreview.net/pdf?id=r1lyTjAqYX1. Abstract최근에 강화학습에서의 분산 학습의 성공에 따라, 분산된 PER(Prioritized experience replay)로 부터 RNN기반의 RL agents를 학습 시키기 위한 방법을 탐구했다.We study the effects of parameter lag resulting in representational drift and recurrent state staleness and empirically derive an improved training strategy.representational drift (표현 이동)과 recurrent state staleness (recurrent st.. 2024. 9. 10.
[APE-X] Distributed Prioritized Experience Replay Paper Link: https://arxiv.org/pdf/1803.00933.pdf1. Abstract본 논문은 강화학습을 위한 분산 구조를 제안Actors: 각자의 환경과 상호작용을 하며 shared neural network를 통해 행동을 결정, shared experience replay에 경험을 누적Learner: 경험들을 샘플링하여 neural network를 학습Prioritized experience replay를 사용하여 actor에 의해 생성된 데이터 중 중요한 데이터에 집중Arcade Learning Environment에서 성능을 검증하였으며 적은 시간의 학습만으로도 좋은 성능을 얻음2. Introduction딥러닝의 경우 더 큰 데이터셋과 더 강력한 모델을 사용하여 더 많은 연산.. 2024. 9. 10.
MyVLM: Personalizing VLMs for User-Specific Queries 논문 링크: https://arxiv.org/pdf/2403.14599.pdf프로젝트 페이지 링크: https://snap-research.github.io/MyVLM/0. Abstract최근의 대형 비전-언어 모델 (Vision Language Models, VLM)은 시각적인 컨텐츠에 대한 이해와 텍스트 묘사에 대한 생성에 좋은 성능을 보였지만 사용자별 컨셉 (user-specific concept)에 대한 이해의 성능은 부족본 논문은 VLM의 개인화에 대한 연구! → 사용자가 제공하는 컨셉 (인물, 사물 등…)에 대해 학습하고 추론하는 것이 가능예를 들어 해당 모델은 이미지 안에서 사용자를 인지하고 사용자의 행동에 대해 커뮤니케이션 할 수 있으며 사용자의 개인적인 경험과 관계에 대해 고려하는 것이 .. 2024. 9. 1.