본문 바로가기

논문리뷰7

The Chosen One: Consistent Characters in Text-to-Image Diffusion Models 논문 링크: https://arxiv.org/pdf/2311.100930. Abstract최근 text-to-image 생성 모델은 다양한 시각적인 창의성을 발휘할 수 있도록 했지만 스토리 시각화, 게임 개발, 에셋 디자인, 광고 등과 같은 실생활 문제들에 적용될 수 있는 일관된 캐릭터 (consistent character) 생성에는 어려움이 있음본 논문에서는 일관된 캐릭터 생성을 자동으로 수행할 수 있는 기법을 제안입력으로는 오직 텍스트 프롬프트만을 사용반복적인 과정을 수행하며 각 단계마다 유사한 특성을 가지는 연관된 이미지 세트를 식별하고 해당 세트로부터 일관된 특성을 추출정량적 결과에서 프롬프트 일치도와 특성 유지 사이에서 기존 베이스라인 기법들보다 더 균형있는 결과를 보임1. Introducti.. 2024. 10. 15.
[APE-X] Distributed Prioritized Experience Replay Paper Link: https://arxiv.org/pdf/1803.00933.pdf1. Abstract본 논문은 강화학습을 위한 분산 구조를 제안Actors: 각자의 환경과 상호작용을 하며 shared neural network를 통해 행동을 결정, shared experience replay에 경험을 누적Learner: 경험들을 샘플링하여 neural network를 학습Prioritized experience replay를 사용하여 actor에 의해 생성된 데이터 중 중요한 데이터에 집중Arcade Learning Environment에서 성능을 검증하였으며 적은 시간의 학습만으로도 좋은 성능을 얻음2. Introduction딥러닝의 경우 더 큰 데이터셋과 더 강력한 모델을 사용하여 더 많은 연산.. 2024. 9. 10.
MyVLM: Personalizing VLMs for User-Specific Queries 논문 링크: https://arxiv.org/pdf/2403.14599.pdf프로젝트 페이지 링크: https://snap-research.github.io/MyVLM/0. Abstract최근의 대형 비전-언어 모델 (Vision Language Models, VLM)은 시각적인 컨텐츠에 대한 이해와 텍스트 묘사에 대한 생성에 좋은 성능을 보였지만 사용자별 컨셉 (user-specific concept)에 대한 이해의 성능은 부족본 논문은 VLM의 개인화에 대한 연구! → 사용자가 제공하는 컨셉 (인물, 사물 등…)에 대해 학습하고 추론하는 것이 가능예를 들어 해당 모델은 이미지 안에서 사용자를 인지하고 사용자의 행동에 대해 커뮤니케이션 할 수 있으며 사용자의 개인적인 경험과 관계에 대해 고려하는 것이 .. 2024. 9. 1.
SpatialVLM: Endowing Vision-Language Models with Spatial Reasoning Capabilities Link: https://arxiv.org/pdf/2401.12168.pdf프로젝트 링크: https://spatial-vlm.github.io/0. Abstract공간적인 관계에 대한 이해와 추론을 하는 것은 시각적인 질의응답 (Visual Question Answering, VQA) 과 로봇 문제에 있어 필수적인 능력최근 비전 언어 모델 (VLM)들은 특정 VQA 문제에서 좋은 성능을 보이지만 여전히 3차원 공간적인 추론에서는 부족한 성능을 보임 → ex. 물리적인 물체의 거리나 사이즈 차이에 대한 정량적인 관계 인지 문제본 논문의 가정: VLM의 제한된 공간적인 추론 능력은 학습 데이터에 3차원 공간적인 지식이 부족하기 때문이며 인터넷 규모의 (Internet-scale) 공간적인 추론 데이터를 기.. 2024. 9. 1.
[LLaVA 1.5] Improved Baselines with Visual Instruction Tuning Link: https://arxiv.org/pdf/2310.03744.pdf프로젝트 링크: https://llava-vl.github.io/깃허브: https://github.com/haotian-liu/LLaVA0. Abstract대형 멀티모달 모델 (LMM, Large Multimodal Models)는 최근 시각적인 instruction 튜닝에서 큰 발전을 보임이런 측면에서 LLaVA의 완전 연결 비전-언어 크로스 모달 커넥터 (fully-connected vision-language cross modal connector)는 강력한 성능과 데이터 효율성을 보임LLaVA에 대해 간단한 변경만 수행하여 11개의 벤치마크에서 최신의 성능을 달성하는 베이스 라인 구축MLP projection과 CLIP-.. 2024. 9. 1.
[LLaVA] Visual Instruction Tuning Link: https://arxiv.org/pdf/2304.08485.pdf프로젝트 링크: https://llava-vl.github.io/깃허브: https://github.com/haotian-liu/LLaVA0. AbstractInstruction tuning 대형 언어 모델 (Instruction tuning LLMs)은 새로운 문제에 대해 zero-shot을 수행하는 발전된 능력을 가졌지만 멀티 모달 영역에서는 이 아이디어가 별로 탐구되지 않음본 논문에서는 언어만을 사용하는 GPT-4를 통해서 멀티 모달 언어-이미지 instruction-following 데이터를 생성하는 첫번째 시도를 수행이렇게 생성된 데이터를 사용하여 instruction tuning을 수행한 모델 소개 → LLaVA: La.. 2024. 8. 31.