diffusion transformers2 Scalable Diffusion Models with Transformers 논문 링크: https://arxiv.org/pdf/2212.09748프로젝트 페이지: https://www.wpeebles.com/DiT깃허브: https://github.com/facebookresearch/DiT 0. Abstract본 논문에서는 트랜스포머 (Transformer) 구조를 백본 (Backbone)으로 하는 새로운 확산 모델 (Diffusion Model) 제안이미지에 대한 잠재 확산 모델 (Latent Diffusion Model, LDM)을 학습 → 일반적으로 사용되는 U-Net 모델 대신 잠재 패치에서 작동하는 트랜스포머 사용또한 본 논문에서 제안하는 DiT (Diffusion Transformers)의 확장성에 대해 분석입력 토큰 수의 증가에 따라 트랜스포머의 깊이/너비가 증가.. 2025. 4. 19. SANA: Efficient High-Resolution Image Synthesis with Linear Diffusion Transformers 논문 링크: https://arxiv.org/pdf/2410.10629프로젝트 페이지: https://nvlabs.github.io/Sana/깃허브: https://github.com/NVlabs/Sana 0. AbstractSana: 효율적으로 이미지를 4096x4096 해상도까지 생성할 수 있는 text-to-image 프레임워크Sana의 특징고해상도 이미지 생성 가능강력한 텍스트-이미지 일치도 (text-image alignment)노트북 GPU에서 구동 가능할 정도의 엄청나게 빠른 속도Sana의 핵심 디자인심층 압축 오토 인코더 (Deep Compression Autoencoder)이미지를 8x 만 압축하는 기존의 AE (AutoEncoder)와는 다르게 본 논문에서는 32x로 이미지를 압축하는 .. 2025. 4. 11. 이전 1 다음 반응형