본문 바로가기

Image generation3

Kolors: Effective Training of Diffusion Model for Photorealistic Text-to-Image Synthesis 논문 링크: https://github.com/Kwai-Kolors/Kolors/blob/master/imgs/Kolors_paper.pdf깃허브: https://github.com/Kwai-Kolors/Kolors0. AbstractText-to-Image 합성을 위한 잠재 확산 모델 (Latent diffusion model) Kolors를 소개!Kolors의 특징영어와 중국어에 대한 심도있는 이해실제와 같은 인상적인 이미지Kolors 개발을 위한 3가지 주요 요소언어 능력 향상대형 언어 모델을 Stable Diffusion 3나 Imagen에서 사용된 T5가 아닌 General Language Model (GLM)을 사용 → 영어와 중국어 모두에 대한 이해 능력을 향상학습 데이터에 대한 텍스트 캡셔.. 2024. 10. 21.
The Chosen One: Consistent Characters in Text-to-Image Diffusion Models 논문 링크: https://arxiv.org/pdf/2311.100930. Abstract최근 text-to-image 생성 모델은 다양한 시각적인 창의성을 발휘할 수 있도록 했지만 스토리 시각화, 게임 개발, 에셋 디자인, 광고 등과 같은 실생활 문제들에 적용될 수 있는 일관된 캐릭터 (consistent character) 생성에는 어려움이 있음본 논문에서는 일관된 캐릭터 생성을 자동으로 수행할 수 있는 기법을 제안입력으로는 오직 텍스트 프롬프트만을 사용반복적인 과정을 수행하며 각 단계마다 유사한 특성을 가지는 연관된 이미지 세트를 식별하고 해당 세트로부터 일관된 특성을 추출정량적 결과에서 프롬프트 일치도와 특성 유지 사이에서 기존 베이스라인 기법들보다 더 균형있는 결과를 보임1. Introducti.. 2024. 10. 15.
IP-Adapter: Text Compatible Image Prompt Adapter forText-to-Image Diffusion Models 논문 링크: https://arxiv.org/pdf/2308.06721깃허브: https://github.com/tencent-ailab/IP-Adapter프로젝트 페이지: https://ip-adapter.github.io/  0. Abstract최근 text-to-image 확산 모델 (diffusion model)은 고품질의 이미지 생성에 강력한 생성 성능을 보임그러나 텍스트 프롬프트만으로는 원하는 이미지를 생성하기가 매우 어려우며 종종 복잡한 프롬프트 엔지니어링을 요구이에 따라 텍스트 프롬프트 대신 이미지 프롬프트를 사용하는 것을 생각할 수 있음 → 천개의 단어보다 하나의 이미지가 더 좋다!기존의 기법: 사전학습 된 모델을 직접적으로 파인튜닝 → 효율적이지만 많은 계산 자원이 필요하며 다른 기반 .. 2024. 9. 13.