본문 바로가기

이미지 생성2

Scalable Diffusion Models with Transformers 논문 링크: https://arxiv.org/pdf/2212.09748프로젝트 페이지: https://www.wpeebles.com/DiT깃허브: https://github.com/facebookresearch/DiT 0. Abstract본 논문에서는 트랜스포머 (Transformer) 구조를 백본 (Backbone)으로 하는 새로운 확산 모델 (Diffusion Model) 제안이미지에 대한 잠재 확산 모델 (Latent Diffusion Model, LDM)을 학습 → 일반적으로 사용되는 U-Net 모델 대신 잠재 패치에서 작동하는 트랜스포머 사용또한 본 논문에서 제안하는 DiT (Diffusion Transformers)의 확장성에 대해 분석입력 토큰 수의 증가에 따라 트랜스포머의 깊이/너비가 증가.. 2025. 4. 19.
SmartBrush: Text and Shape Guided Object Inpainting with Diffusion Model 논문 링크: https://arxiv.org/pdf/2212.050340. Abstract멀티모달 이미지 인페인팅 (Multi-modal Image Inpainting) → 인페인팅 되는 콘텐츠에 대해 더욱 유연하고 유용한 제어를 제공e.g. 물체에 대한 더욱 풍성한 특징을 설명하기 위해 텍스트 프롬프트를 사용할 수 있으며 마스크 (Mask)는 인페인팅 되는 물체의 모양을 제한하는데 사용본 논문에서는 새로운 확산 (Diffusion) 기반 모델인 SmartBrush를 제안 → 텍스트와 모양 (shape)에 대한 가이드를 사용하여 빈 영역을 물체로 채워줌DALL-E 2나 Stable Diffusion과 같은 이전의 기법들은 텍스트 기반 인페인팅은 가능하지만 모양에 대한 가이드는 제공하지 않아서 생성된 물체.. 2024. 11. 7.