본문 바로가기

논문 리뷰/Diffusion Model8

Scalable Diffusion Models with Transformers 논문 링크: https://arxiv.org/pdf/2212.09748프로젝트 페이지: https://www.wpeebles.com/DiT깃허브: https://github.com/facebookresearch/DiT 0. Abstract본 논문에서는 트랜스포머 (Transformer) 구조를 백본 (Backbone)으로 하는 새로운 확산 모델 (Diffusion Model) 제안이미지에 대한 잠재 확산 모델 (Latent Diffusion Model, LDM)을 학습 → 일반적으로 사용되는 U-Net 모델 대신 잠재 패치에서 작동하는 트랜스포머 사용또한 본 논문에서 제안하는 DiT (Diffusion Transformers)의 확장성에 대해 분석입력 토큰 수의 증가에 따라 트랜스포머의 깊이/너비가 증가.. 2025. 4. 19.
SANA: Efficient High-Resolution Image Synthesis with Linear Diffusion Transformers 논문 링크: https://arxiv.org/pdf/2410.10629프로젝트 페이지: https://nvlabs.github.io/Sana/깃허브: https://github.com/NVlabs/Sana 0. AbstractSana: 효율적으로 이미지를 4096x4096 해상도까지 생성할 수 있는 text-to-image 프레임워크Sana의 특징고해상도 이미지 생성 가능강력한 텍스트-이미지 일치도 (text-image alignment)노트북 GPU에서 구동 가능할 정도의 엄청나게 빠른 속도Sana의 핵심 디자인심층 압축 오토 인코더 (Deep Compression Autoencoder)이미지를 8x 만 압축하는 기존의 AE (AutoEncoder)와는 다르게 본 논문에서는 32x로 이미지를 압축하는 .. 2025. 4. 11.
VASA-1: Lifelike Audio-Driven Talking Faces Generated in Real Time 논문 링크: https://arxiv.org/pdf/2404.10667프로젝트 페이지: https://www.microsoft.com/en-us/research/project/vasa-1/0. Abstract단일 이미지와 발화에 대한 오디오 클립이 주어졌을 때 Visual Affective Skills (VAS)를 가지는 실제 같은 talking face를 생성하는 프레임워크 제안 → VASA첫 모델인 VASA-1은 단순히 입술만 오디오에 맞게 움직이는 것 뿐 아니라 다양한 얼굴의 뉘앙스, 자연스러운 머리의 움직임까지 적용하여 생동감있는 결과를 만들 수 있음본 논문의 혁신적인 점 → 확산 (Diffusion)을 기반으로 얼굴 잠재 공간 (latent space)에서 전체적인 얼굴이나 머리의 움직임을 생성.. 2024. 11. 19.
SmartBrush: Text and Shape Guided Object Inpainting with Diffusion Model 논문 링크: https://arxiv.org/pdf/2212.050340. Abstract멀티모달 이미지 인페인팅 (Multi-modal Image Inpainting) → 인페인팅 되는 콘텐츠에 대해 더욱 유연하고 유용한 제어를 제공e.g. 물체에 대한 더욱 풍성한 특징을 설명하기 위해 텍스트 프롬프트를 사용할 수 있으며 마스크 (Mask)는 인페인팅 되는 물체의 모양을 제한하는데 사용본 논문에서는 새로운 확산 (Diffusion) 기반 모델인 SmartBrush를 제안 → 텍스트와 모양 (shape)에 대한 가이드를 사용하여 빈 영역을 물체로 채워줌DALL-E 2나 Stable Diffusion과 같은 이전의 기법들은 텍스트 기반 인페인팅은 가능하지만 모양에 대한 가이드는 제공하지 않아서 생성된 물체.. 2024. 11. 7.
Kolors: Effective Training of Diffusion Model for Photorealistic Text-to-Image Synthesis 논문 링크: https://github.com/Kwai-Kolors/Kolors/blob/master/imgs/Kolors_paper.pdf깃허브: https://github.com/Kwai-Kolors/Kolors0. AbstractText-to-Image 합성을 위한 잠재 확산 모델 (Latent diffusion model) Kolors를 소개!Kolors의 특징영어와 중국어에 대한 심도있는 이해실제와 같은 인상적인 이미지Kolors 개발을 위한 3가지 주요 요소언어 능력 향상대형 언어 모델을 Stable Diffusion 3나 Imagen에서 사용된 T5가 아닌 General Language Model (GLM)을 사용 → 영어와 중국어 모두에 대한 이해 능력을 향상학습 데이터에 대한 텍스트 캡셔.. 2024. 10. 21.
The Chosen One: Consistent Characters in Text-to-Image Diffusion Models 논문 링크: https://arxiv.org/pdf/2311.100930. Abstract최근 text-to-image 생성 모델은 다양한 시각적인 창의성을 발휘할 수 있도록 했지만 스토리 시각화, 게임 개발, 에셋 디자인, 광고 등과 같은 실생활 문제들에 적용될 수 있는 일관된 캐릭터 (consistent character) 생성에는 어려움이 있음본 논문에서는 일관된 캐릭터 생성을 자동으로 수행할 수 있는 기법을 제안입력으로는 오직 텍스트 프롬프트만을 사용반복적인 과정을 수행하며 각 단계마다 유사한 특성을 가지는 연관된 이미지 세트를 식별하고 해당 세트로부터 일관된 특성을 추출정량적 결과에서 프롬프트 일치도와 특성 유지 사이에서 기존 베이스라인 기법들보다 더 균형있는 결과를 보임1. Introducti.. 2024. 10. 15.
반응형