논문 링크: https://arxiv.org/pdf/2404.10667
프로젝트 페이지: https://www.microsoft.com/en-us/research/project/vasa-1/

0. Abstract

단일 이미지와 발화에 대한 오디오 클립이 주어졌을 때 Visual Affective Skills (VAS)를 가지는 실제 같은 talking face를 생성하는 프레임워크 제안 → VASA
첫 모델인 VASA-1은 단순히 입술만 오디오에 맞게 움직이는 것 뿐 아니라 다양한 얼굴의 뉘앙스, 자연스러운 머리의 움직임까지 적용하여 생동감있는 결과를 만들 수 있음
본 논문의 혁신적인 점 → 확산 (Diffusion)을 기반으로 얼굴 잠재 공간 (latent space)에서 전체적인 얼굴이나 머리의 움직임을 생성하는 모델
실제적인 머리와 얼굴의 움직임을 가지는 높은 품질의 비디오를 생성 → 512x512 크기의 40 FPS 비디오에 대한 온라인 생성 가능

1. Introduction

오디오를 기반으로 높은 수준의 실제적인 talking face를 생성하는 새로운 기법을 제안 → VASA-1
- 주어진 개인의 얼굴 이미지와 특정 사람에 대한 발화 오디오 클립이 있을 때 본 기법은 효율적으로 매우 실제적인 talking face를 생성
본 기법의 장점
- 비디오는 오디오와 일치된 입 모양만 만드는 것이 아니라 넓은 범위의 자연스럽고 사람 같은 얼굴과 머리의 움직임을 생성
- 다른 중요한 요소는 생성의 효율성 → 라이브 대화와 같은 실시간 소통에 사용 가능
  - 하지만 이미지나 비디오 확산 기법은 talking face 생성에 큰 발전을 가지고 왔지만 상당한 계산량을 요구하여 소통 시스템에서 실용성을 제한
  - 이에 따라 최적화된 알고리즘을 통해 고품질의 비디오 합성과 실시간 응용을 위한 짧은 지연 시간을 요구
본 논문의 기법은 효율적이면서도 강력한 오디오 조건부 생성 모델을 제안
- 기존의 기법들과 다르게 전체적인 머리와 얼굴 움직임에 대한 잠재 공간에서 Diffusion Transformer 모델을 사용
- 얼굴과 관련된 모든 동작 (입술 움직임, 입술 외 얼굴 표현, 시선, 눈 깜빡임, …)을 하나의 단일 변수로 고려 → 통합된 형태의 확률 분포
- 또한 시선, 머리 크기, 감정 등 추가적인 조건을 학습 과정에 통합
- 이는 복잡한 분포에 대한 생성 모델의 제어 정도를 더욱 증가시키고 다루기 쉽도록 함
목표를 달성하기 위한 또 다른 장애물 → 얼굴에 대한 외형도 고려해야할 요소!
- 큰 크기의 얼굴 비디오를 사용하여 사람 얼굴에 대한 적절한 잠재 공간을 구축
- 얼굴 잠재 공간에 대한 목표 → 얼굴의 움직임과 다른 요소들에 대한 분리성 (Disentanglement) + 얼굴 외형에 대한 디테일과 움직임의 뉘앙스를 위한 풍부한 표현력 (Expressiveness)
- 본 논문의 기법은 3D 기반의 표현 (3D-aided representation)을 기반으로 하고 신중하게 디자인된 손실 함수를 사용
- 각 네트워크의 역할
  - 인코더: 3D 외형, 머리 포즈, 전체적인 얼굴의 움직임 등의 요소들을 잘 분리
  - 디코더: 주어진 잠재 코드들을 기반으로 고품질의 얼굴 생성

2. Method

Task Definition

그림 1에서 정의된 것 처럼 본 논문에서 제안하는 기법의 입력은 다음의 2가지
- 단일 얼굴 이미지 $I$, 발화 오디오 클립 $a$
목표: 주어진 오디오를 입력의 얼굴이 말하도록 하는 실제적인 합성 비디오를 생성하는 것
성공적으로 생성된 비디오는 몇가지 주요한 측면에서 높은 품질을 보여야함
- 이미지 프레임의 명확성, 오디오와 입술 움직임 사이의 정확한 동기화, 표현과 감정이 풍부하게 드러나는 얼굴 움직임, 자연스러운 머리 움직임
또한 추가적인 제어 신호를 사용하여 생성을 가이드
- 시선 방향 $g$, 머리와 카메라 사이의 거리 $d$, 감정 $e$

Overall framework

직접적으로 이미지 프레임을 생성하는 대신 오디오나 다른 신호들로 조건이 된 잠재 공간에서 전체적인 얼굴과 머리의 움직임을 생성
이 움직임에 대한 잠재 코드들 + 얼굴 이미지를 입력하는 하는 얼굴 인코더로부터 추출된 외형 정보를 사용 → 얼굴 디코더를 통해 비디오 프레임을 생성
이를 달성하기 위해 얼굴의 잠재 공간을 구축하고 얼굴 인코더, 디코더를 학습
단순하지만 강력한 Diffusion Transformer를 사용하여 움직임 분포를 모델링 → 테스트시 오디오와 다른 조건에 대한 움직임 잠재 코드를 생성

2.1. Expressive and Disentangled Face Latent Space Construction

목표: 라벨링 되지 않은 talking face 비디오 데이터 셋이 주어졌을 때, 본 논문의 목표는 높은 수준의 분리성 (disentanglement)와 표현성 (expressiveness)를 가지는 사람 얼굴 잠재 공간을 구축하는 것
- 분리성은 많은 비디오로부터 사람의 전체적인 얼굴과 머리의 움직임을 효과적으로 모델링 하는 것 → 출력에 대해 분리된 요소들에 따른 제어가 가능하도록 함
- 얼굴의 외형과 움직임에 대한 표현성은 디코더가 세부적인 얼굴 표현을 포함한 고품질의 비디오를 출력하는 것을 보장
이를 달성하기 위해 3D 기반 얼굴 재현 프레임워크를 기반으로 함
- 3D 외형 특징 (feature)은 2D 특징 맵에 비해 외형의 세부적인 부분을 더욱 잘 나타낼 수 있음 → 3D로 된 머리나 머리의 움직임 등을 잘 모델링
구체적으로 얼굴 이미지를 다음과 같은 정보들을 담고 있는 특징들로 분리
- $V^{app}$: 3D 외형
- $z^{id}$: 신원 (identity)
- $z^{pose}$: 3D 머리 포즈
- $z^{dyn}$: 얼굴의 움직임
위의 각 정보들은 얼굴 이미지로부터 개별적인 인코더를 사용하여 추출됨
- 단, $V^{app}$의 경우는 참고 논문에서 수행한 것처럼 먼저 포즈를 가지는 3D 볼륨을 추출하고 이를 표준 볼륨으로 rigid, non-rigid 3D 워핑 (warping)을 적용하여 구성
- 단일 디코더 $\mathcal{D}$는 해당 잠재 변수를 입력으로 하여 얼굴 이미지를 재구축 → $V^{app}$에 적용하여 3D 외형 볼륨을 얻은 워핑 과정과 유사한 것을 역으로 수행
상세한 구조의 경우 아래 논문의 내용 참고
- https://arxiv.org/pdf/2207.07621
분리된 잠재 공간 (Disentangled latent space)을 학습하기 위한 핵심 아이디어 → 비디오의 다른 이미지들 사이의 잠재 변수를 바꾸는 이미지 재구축 손실함수 (image reconstruction loss)를 구축하는 것
- 기본 손실함수
  - https://arxiv.org/pdf/2207.07621 논문에서 사용한 손실함수를 그대로 사용
  - 하지만 위 손실함수만 사용하는 경우 얼굴의 움직임과 머리의 포즈가 잘 분리되지 않으며 신원 (identity)과 움직임에 대한 분리도 불완전
- pairwise head pose and facial dynamics transfer loss 추가
  - $I_i, I_j$: 동일한 비디오에서 한 대상에 대해 샘플링 된 두개의 랜덤 프레임
  - 인코더를 통해서 잠재 변수를 추출하고 $I_i$의 머리 포즈를 $I_j$에 전달 → $\hat{I}_{j, z_i^{pose}} = \mathcal{D}(V_j^{app}, z_j^{id}, z_i^{pose}, z_j^{dyn})$
  - 그리고 $I_j$의 얼굴 움직임은 $I_i$에 전달 → $\hat{I}_{i, z_j^{dyn}}=\mathcal{D} (V_i^{app}, z_i^{id}, z_i^{pose}, z_j^{dyn})$
  - $\hat{I}{j, z_i^{pose}}$와 $\hat{I}{i, z_j^{dyn}}$ 사이의 손실함수를 최소화 하도록 학습
- face identity similarity loss
  - 신원 (identity)과 움직임에 대한 분리를 강화하기 위한 손실함수
  - $I_s, I_d$는 서로 다른 두 대상에 대한 비디오 프레임
  - $I_d$의 움직임을 $I_s$에 적용하여 $\hat{I}{s, z{d}^{pose}, z_d^{dyn}} = \mathcal{D} (V_s^{app}, z_s^{id}, z_d^{pose}, z_d^{dyn})$을 취득
  - 그리고 $I_s$와 $\hat{I}{s, z{d}^{pose}, z_d^{dyn}}$ 사이에서 추출된 deep face identity features (https://arxiv.org/pdf/1801.07698) 사이의 코사인 유사도 손실함수를 계산

2.2. Holistic Facial Dynamics Generation with Diffusion Transformer

구축된 얼굴의 잠재 공간과 학습된 인코더가 주어졌을 때 실제 talking face 비디오에서 얼굴과 머리의 움직임을 추출하고 생성 모델을 학습
본 논문에서 고려하는 방식 → 오디오를 조건으로 하는 identity-agnostic holistic facial dynamics generation (HFDG) 확산 모델
학습된 잠재 코드는 모든 얼굴의 움직임을 나타냄 → 입술의 움직임, (입술 제외) 표현, 시선, 눈 깜빡임
트랜스포머 (transformer) 구조 적용
그림 2는 본 논문의 HFDG 프레임워크의 개요도를 보여줌

비디오 클립으로부터 추출된 움직임의 시퀀스는 $X=\{[z_i^{pose}, z_i^{dyn}]\}, i=1,...,W$로 정의
- 오디오 클립 $a$가 주어졌을 때 오디오 특징 $A=\{f_i^{audio}\}$ 추출 → 사전학습 된 특징 추출기인 Wav2Vec2 사용

Diffusion formulation

확산 모델은 2개의 Markov chain을 정의
- forward chain: 타겟 데이터에 점진적으로 가우시안 노이즈를 추가
- reverse chain: 반복적으로 노이즈로부터 원본 신호를 복구
단순화 된 손실함수의 결과가 아래와 같음

$t$: 시간 스텝
$X^0 = X$: 움직임의 잠재 시퀀스
$X^t$: 확산 순과정에 의해 생성된 노이즈 입력 → $q(X^t | X^{t-1}) = \mathcal{N} (X^t ; \sqrt{1-\beta_t}X^{t-1}, \beta_t I)$
$\mathcal{H}$: 원본 신호를 예측하는 트랜스포머 네트워크
$C$: 텍스트로 묘사된 조건 신호

Conditioning signals

오디오 기반 움직임 샘성 문제에서 가장 주요한 조건은 오디오 특징 시퀀스 $A$
다음과 같은 몇가지 추가적인 신호들을 조건으로 통합하여 더욱 제어 가능하도록 설정
- 시선 방향 $g=(\theta, \phi)$
  - 구면 좌표계 (Spherical coordinates)로 정의
  - 생성된 talking face가 쳐다보는 방향을 결정
- 머리와 카메라 사이의 거리 $d$
  - 정규화 된 스칼라 값으로 머리와 가상 카메라 사이의 거리를 제어
  - 생성된 얼굴 비디오에서 머리의 크기에 영향을 미침
- 감정 $e$
  - Talking face의 감정을 결정
  - 참고 논문에 의해 추출된 평균 감정 계수 (averaged emotion coefficient)를 감정 신호로 사용
인접한 윈도우 간에 자연스러운 변화를 위해 오디오 특징의 마지막 $K$ 프레임과 이전 윈도우에서 생성된 움직임을 통합하여 현재의 조건으로 사용
- 입력 조건은 다음과 같이 정의 가능 → $C = [X^{pre}, A^{pre};A, g, d, e]$

Classifier-free guidance (CFG)

학습 단계에서는 랜덤하게 입력 조건을 누락시킴
추론 과정에서는 아래와 같이 적용

$\lambda_c$: 조건 $c$를 위한 CFG 스케일
$C|_{c=\emptyset}$: 조건 $c$가 $empty$로 대체된 것을 나타냄

학습 동안은 각 조건에 대한 누락 확률을 0.1로 설정 ($X^{pre}, A^{pre}$는 제외는 0.5를 사용)
또한 랜덤하게 $A$의 마지막 몇 프레임을 누락 → 윈도우 길이보다 짧은 오디오 시퀀스에 대한 강인한 움직임 생성을 보장

2.3. Talking Face Video Generation

추론시 얼굴 이미지와 오디오 클립이 주어짐
- 먼저 학습된 얼굴 인코더를 사용하여 3D 외형 볼륨 $V^{app}$과 신원 (identity) 코드 $z^{id}$를 추출
- 오디오 특징을 추출하고 이를 길이 $W$의 크기로 나눠줌
- 머리와 얼굴의 움직임 시퀀스를 생성 → $\{X=\{[z_i^{pose}, z_i^{dyn}]\}\}$은 하나씩 슬라이딩 윈도우 형식으로 수행되며 학습된 확산 트랜스포머 $\mathcal{H}$를 사용
- 마지막 비디오는 학습된 디코더를 사용하여 순차적으로 생성됨

3. Experiments

Implementation details

얼굴의 잠재 공간을 학습하기 위해 VoxCeleb2 데이터셋을 사용
6천명의 대상에 대한 talking face 비디오를 포함
다수의 사람이 등장하는 클립과 참고 논문의 방법을 사용하여 낮은 품질로 나온 클립은 데이터셋에서 제거
확산 네트워크: 8층의 트랜스포머 인코더를 사용하며 임베딩의 크기는 512, 헤드의 수는 8로 설정
VoxCeleb2 데이터에 3.5K 명의 대상을 포함하는 고해상도의 발화 비디오 데이터셋을 추가하여 학습
CFG 파라미터는 다음과 같이 설정 → $\lambda_A = 0.5, \lambda_g=1.0$이고 샘플링 스텝은 50으로 사용

Evaluation benchmarks

평가를 위해서 2개의 데이터셋 사용
- VoxCeleb2의 테스트 데이터
  - 테스트 데이터 중 46명의 대상을 랜덤하게 선택
  - 각 대상에 대해 10개의 비디오 클립 샘플링
  - 비디오 클립들은 대부분 5~15초 분량 (80% 정도가 10초 이하)
- 긴 발화 생성을 위해 추가적인 평가 데이터 구축
  - 17명이 1분간 발화하는 32개의 데이터 수집
  - 주로 온라인 코칭이나 교육 영상에서 수집했으며 VoxCeleb2보다 다양한 데이터로 구성됨 → OneMin-32로 이름을 명명

Inference speed.

오프라인 배치 프로세싱으로 512x512 사이즈 크기, 45FPS의 속도로 비디오 프레임을 생성
온라인 스트리밍 모드로도 40FPS까지 지원
NVIDIA RTX 4090 GPU를 가진 데스크탑 PC를 사용해도 170ms 정도의 지연만 발생

3.1. Qualitative Evaluation

Visual results

그림 1은 본 기법의 오디오 기반 talking face 생성 결과를 보여줌
생생한 얼굴 감정을 포함한 고품질의 비디오 프레임 생성
사람과 같이 대화 관련 행동을 생성 → 말하는 동안 시선을 위로 응시한다던지, 눈을 자연스러운 리듬으로 감는 등의 뉘앙스를 생성

Generation controllability

그림 3은 시선, 머리의 거리, 감정과 같은 다른 제어 요소를 변경하여 생성한 결과를 보임
- 이는 생성 모델이 해당 신호들을 잘 해석했고 이런 상세한 파라미터와 매우 연관있는 talking face 결과를 생성할 수 있음을 증명

Disentanglement of face latents

그림 A.1은 동일한 움직임의 잠재 시퀀스를 다른 대상에 적용한 결과를 나타냄
명확한 얼굴의 움직임과 얼굴의 신원을 효과적으로 유지하는 것을 확인할 수 있음
- 이는 신원과 움직임이 효율적으로 분리되는 것을 보여줌
그림 A.2는 머리 포즈와 얼굴의 움직임 사이에 효과적인 분리를 나타냄

위 그림을 보면 머리 포즈를 고정하고 표정을 바꾸거나 표정을 고정하고 얼굴 포즈만 바꾼 결과들을 확인할 수 있음

Out-of-distribution generation

학습 분포 바깥의 사진과 오디오에 대한 처리 능력을 확인
- 위의 2개 행의 경우 예술적인 사진이나 노래부르는 오디오 클립을 사용했으며 마지막 행은 비 영어 발화를 사용 → 학습 데이터에 포함되지 않은 데이터

3.2. Quantitative Evaluation

Evaluation metrics

입술 움직임, 머리 포즈, 전체적인 비디오 퀄리티에 대한 정량적 평가 기준을 설정 → 새로운 오디오-포즈 일치도에 대한 데이터도 제안
- 오디오-입술 동기화 (Audio-lip synchronization)
  - 사전학습된 오디오-입술 동기화 네트워크를 사용 (i.e. SyncNet)
  - 입력 오디오와 생성된 비디오 내 입술 움직임의 일치도를 평가
  - 확신에 대한 점수 (confidence score, $S_c$)와 특징의 거리 (feature distance, $S_D$)를 각각 계산
  - 높은 $S_C$, 낮은 $S_D$가 일반적으로 더 나은 오디오-입술 동기화 품질을 나타냄
- 오디오-포즈 일치도 (Audio-pose alignment)
  - 생성된 머리 포즈와 입력 오디오 사이의 일치도를 평가하는 것은 쉽지 않음
  - 본 논문에서는 새로운 데이터 기반 지표를 소개 → Contrastive Audio and Pose Pretraining (CAPP) 점수
  - CLIP에 영감을 받아서 포즈 시퀀스 인코더와 오디오 시퀀스 인코더를 동시에 학습하고 포즈 시퀀스와 오디오 쌍에 대해 예측을 수행
  - 오디오 인코더는 Wav2Vec2 네트워크를, 포즈 인코더는 랜덤하게 초기화 된 6층의 트랜스포머 네트워크를 사용
  - 입력 윈도우 크기 = 3
  - CAPP 모델은 2K 시간 만큼의 실제 오디오와 포즈 시퀀스를 통해 학습
  - 오디오 입력과 생성된 포즈 사이의 동기화를 평가하는데 강인한 성능을 보임
- 포즈 다양성 강도 (Pose variation intensity)
  - 포즈 다양성 정도의 점수 → $\triangle P$를 정의 → 인접한 프레임 사이의 평균적인 포즈 각도 차이
  - 모든 생성된 비디오의 프레임들을 평균 → $\triangle P$는 전체적으로 생성된 머리 움직임 정도를 나타냄
- 비디오 퀄리티 (Video quality)
  - Frechet Video Distance (FVD)를 사용 → 생성된 비디오 품질 평가
  - FVD를 25개의 연속된 프레임 시퀀스를 통해 계산

Compared Methods

비교를 위한 오디오 기반 talking face 생성 기법 → MakeItTalk, Audio2Head, SadTalker
MakeItTalk
- LSTM을 사용하여 오디오를 동적인 얼굴의 랜드마크로 변환
- 해당 랜드마크들을 통해서 입력 이미지에 움직임을 부여하는 방식으로 이미지를 비디오 시퀀스로 생성 (이미지 와핑 (warping)이나 인공신경망 기반 이미지 변환 사용)
Audio2Head
- 모션 인지 회귀 신경망 (motion-aware recurrent network) 사용 → 오디오를 머리 포즈로 변환
SadTalker
- VAE 네트워크를 사용하여 오디오로 부터 포즈를 생성하고 회귀 네트워크를 통해 오디오로부터 입술에 대한 계수를 생성
- 눈 깜빡임에 대해서는 랜덤 변수를 사용
- 해당 기법은 동일한 오디오 입력으로부터 다양한 포즈와 눈 깜빡임을 생성하지만 눈썹, 시선, 얼굴 표정 등에 대해서는 고정된 패턴을 보임

Main Result

고정적인 결과를 보이는 기법인 MakeItTalk나 Audio2Head에 대해서는 단일 비디오만을 생성
SadTalker나 제안된 기법의 경우 각 오디오에 대해 3개의 비디오를 샘플링하고 도출된 값의 평균값을 사용
생성된 프레임으로부터 머리 포즈는 재추출 → 포즈 기반 지표 계산 (i.e. CAPP, $\triangle P$)
FVD 지표에 대해서는 2K개의 25 프레임 비디오 클립을 사용

표1은 VoxCeleb2와 OneMin-32 벤치마크의 결과를 나타냄
- VoxCeleb2의 경우 종종 비디오 품질이 낮은 경우가 있으므로 FVD를 평가하지 않음
제안된 기법이 모든 평가 지표에서 가장 뛰어난 성능을 달성
오디오-입술 동기화 점수 ($S_C, S_D$)에서는 큰 차이로 다른 기법들의 성능을 능가
생성된 포즈들은 특히 OneMin-32 벤치마크에서 오디오와 더 잘 일치 → CAPP 점수로 살펴볼 수 있음
머리 움직임은 $\triangle P$를 통해 높은 강도를 보이는 것을 알 수 있음
FVD 점수는 다른 것보다 낮음 → 훨씬 높은 비디오 품질과 실제성을 보이는 것을 알 수 있음

3.3. Analysis and Ablation Study

CAPP metric

오디오와 머리 포즈의 일치도 측정을 위한 CAPP 지표의 효율성을 살펴봄
첫번째로 실제 오디오-포즈 쌍에서 프레임에 수동적인 오프셋을 주어 시간적인 이동을 할 때의 민감도를 살펴봄
- VoxCeleb2 테스트셋에서 3초짜리 비디오 클립을 추출 → 2.1K 오디오-포즈 쌍 확보

해당 데이터에 대한 평균 CAPP 점수는 0.608 (표 2 참고)
- 수동적인 프레임 이동은 CAPP 점수의 빠른 감소를 이끌어냄 → 두 프레임 이상 이동하면 0에 근접
- 이는 CAPP 점수와 오디오-머리 포즈 일치도 사이에 강인한 연관성이 있음을 보임

CAPP의 강도에 대한 머리 움직임의 영향을 살펴봄
- 다양한 요소를 사용하여 연속된 프레임 사이의 포즈 차이를 측정
- 표 3을 통해서 움직임 강도를 변경하는 것은 CAPP 점수에 부정적인 영향을 미치는 것을 알 수 있음

CFG scales

확산 모델에 대한 CFG 전략은 샘플의 품질과 다양성 사이에서 trade-off를 가짐

여기서는 오디오와 시선 조건에 따른 CFG 스케일 선택을 평가할 것 (식 2의 $\lambda_A, \lambda_g$) → 표 4 참고
- $\lambda_g$를 증가시키는 것은 시선 제어의 정확도를 향상시킴
- 오디오 CFG 스케일을 $\lambda_A$로 증가시키는 것은 입술-오디오의 일치도 성능 $(S_C, S_D)$, 포즈-오디오 일치도 (CAPP), 포즈 다양성 강도 $(\triangle P)$를 크게 향상시킴
- 양의 오디오 CFG를 사용하면 입술-오디오 일치도 점수는 실제 비디오를 통해 평가한 것을 능가, 게다가 FVD 점수는 살짝 떨어지면서 약간 더 나은 비디오 품질을 보임
- 하지만 $\lambda_A$를 증가시키는 것은 오디오-포즈 동기화와 시선 제어에 대한 성능을 약간 감소시킴
- 또한 높은 $\lambda_A$는 강한 보컬에서 입의 움직임을 명확하게 증폭시키며 빠른 속도로 머리 포즈가 떨리는 원인이 될 수 있음
- 균형잡힌 성능과 전체적인 생성 품질을 위한 파라미터 → $\lambda_A = 0.5, \lambda_g=1.0$
샘플링 스텝이 성능에 미치는 형샹도 평가
- 표 4는 스텝을 50에서 10으로 했을 때 오디오-입술, 오디오-포즈 일치도는 향상되지만 포즈 변화 강도와 전체적인 비디오 품질은 저하됨
- 이런 스텝 감소는 추론 과정을 가속화 할 수 있음

4. Conclusion

VASA-1을 제안 → 오디오 기반 talking face 생성 모델로 단일 이미지와 오디오 입력을 통해 실제적인 입술 동기화, 활기찬 얼굴 표현, 자연스러운 머리 움직임을 효율적으로 생성
기존 기법들을 비디오 품질, 성능 효율성 측면에서 큰 차이로 능가
표현력 있으면서도 분리된 얼굴 잠재 공간에서 동작하는 얼굴과 머리 움직임 생성 모델

Limitation and future work

몇몇의 한계점이 있음 → 사람의 몸통 위쪽 영역에 대해서만 생성 가능
머리나 옷 같은 비강체 요소에 대해서는 동작하지 않음
더욱 다양한 발화 스타일과 감정을 표현할 수 있도록 표현력과 제어 능력을 향상시킬 예정

'논문 리뷰 > Diffusion Model' 카테고리의 다른 글

Scalable Diffusion Models with Transformers (0)	2025.04.19
SANA: Efficient High-Resolution Image Synthesis with Linear Diffusion Transformers (0)	2025.04.11
SmartBrush: Text and Shape Guided Object Inpainting with Diffusion Model (0)	2024.11.07
Kolors: Effective Training of Diffusion Model for Photorealistic Text-to-Image Synthesis (1)	2024.10.21
The Chosen One: Consistent Characters in Text-to-Image Diffusion Models (1)	2024.10.15

박사개구리의 블로그

VASA-1: Lifelike Audio-Driven Talking Faces Generated in Real Time

0. Abstract

1. Introduction

2. Method

Task Definition

Overall framework

2.1. Expressive and Disentangled Face Latent Space Construction

2.2. Holistic Facial Dynamics Generation with Diffusion Transformer

Diffusion formulation

Conditioning signals

Classifier-free guidance (CFG)

2.3. Talking Face Video Generation

3. Experiments

Implementation details

Evaluation benchmarks

Inference speed.

3.1. Qualitative Evaluation

Visual results

Generation controllability

Disentanglement of face latents

Out-of-distribution generation

3.2. Quantitative Evaluation

Evaluation metrics

Compared Methods

Main Result

3.3. Analysis and Ablation Study

CAPP metric

CFG scales

4. Conclusion

Limitation and future work

'논문 리뷰 > Diffusion Model' 카테고리의 다른 글

티스토리툴바

VASA-1: Lifelike Audio-Driven Talking Faces Generated in Real Time

0. Abstract

1. Introduction

2. Method

Task Definition

Overall framework

2.1. Expressive and Disentangled Face Latent Space Construction

2.2. Holistic Facial Dynamics Generation with Diffusion Transformer

Diffusion formulation

Conditioning signals

Classifier-free guidance (CFG)

2.3. Talking Face Video Generation

3. Experiments

Implementation details

Evaluation benchmarks

Inference speed.

3.1. Qualitative Evaluation

Visual results

Generation controllability

Disentanglement of face latents

Out-of-distribution generation

3.2. Quantitative Evaluation

Evaluation metrics

Compared Methods

Main Result

3.3. Analysis and Ablation Study

CAPP metric

CFG scales

4. Conclusion

Limitation and future work

'논문 리뷰 > Diffusion Model' 카테고리의 다른 글

관련글

티스토리툴바