- 논문 링크: https://arxiv.org/pdf/2404.10667
- 프로젝트 페이지: https://www.microsoft.com/en-us/research/project/vasa-1/
0. Abstract
- 단일 이미지와 발화에 대한 오디오 클립이 주어졌을 때 Visual Affective Skills (VAS)를 가지는 실제 같은 talking face를 생성하는 프레임워크 제안 → VASA
- 첫 모델인 VASA-1은 단순히 입술만 오디오에 맞게 움직이는 것 뿐 아니라 다양한 얼굴의 뉘앙스, 자연스러운 머리의 움직임까지 적용하여 생동감있는 결과를 만들 수 있음
- 본 논문의 혁신적인 점 → 확산 (Diffusion)을 기반으로 얼굴 잠재 공간 (latent space)에서 전체적인 얼굴이나 머리의 움직임을 생성하는 모델
- 실제적인 머리와 얼굴의 움직임을 가지는 높은 품질의 비디오를 생성 → 512x512 크기의 40 FPS 비디오에 대한 온라인 생성 가능
1. Introduction
- 오디오를 기반으로 높은 수준의 실제적인 talking face를 생성하는 새로운 기법을 제안 → VASA-1
- 주어진 개인의 얼굴 이미지와 특정 사람에 대한 발화 오디오 클립이 있을 때 본 기법은 효율적으로 매우 실제적인 talking face를 생성
- 본 기법의 장점
- 비디오는 오디오와 일치된 입 모양만 만드는 것이 아니라 넓은 범위의 자연스럽고 사람 같은 얼굴과 머리의 움직임을 생성
- 다른 중요한 요소는 생성의 효율성 → 라이브 대화와 같은 실시간 소통에 사용 가능
- 하지만 이미지나 비디오 확산 기법은 talking face 생성에 큰 발전을 가지고 왔지만 상당한 계산량을 요구하여 소통 시스템에서 실용성을 제한
- 이에 따라 최적화된 알고리즘을 통해 고품질의 비디오 합성과 실시간 응용을 위한 짧은 지연 시간을 요구
- 본 논문의 기법은 효율적이면서도 강력한 오디오 조건부 생성 모델을 제안
- 기존의 기법들과 다르게 전체적인 머리와 얼굴 움직임에 대한 잠재 공간에서 Diffusion Transformer 모델을 사용
- 얼굴과 관련된 모든 동작 (입술 움직임, 입술 외 얼굴 표현, 시선, 눈 깜빡임, …)을 하나의 단일 변수로 고려 → 통합된 형태의 확률 분포
- 또한 시선, 머리 크기, 감정 등 추가적인 조건을 학습 과정에 통합
- 이는 복잡한 분포에 대한 생성 모델의 제어 정도를 더욱 증가시키고 다루기 쉽도록 함
- 목표를 달성하기 위한 또 다른 장애물 → 얼굴에 대한 외형도 고려해야할 요소!
- 큰 크기의 얼굴 비디오를 사용하여 사람 얼굴에 대한 적절한 잠재 공간을 구축
- 얼굴 잠재 공간에 대한 목표 → 얼굴의 움직임과 다른 요소들에 대한 분리성 (Disentanglement) + 얼굴 외형에 대한 디테일과 움직임의 뉘앙스를 위한 풍부한 표현력 (Expressiveness)
- 본 논문의 기법은 3D 기반의 표현 (3D-aided representation)을 기반으로 하고 신중하게 디자인된 손실 함수를 사용
- 각 네트워크의 역할
- 인코더: 3D 외형, 머리 포즈, 전체적인 얼굴의 움직임 등의 요소들을 잘 분리
- 디코더: 주어진 잠재 코드들을 기반으로 고품질의 얼굴 생성
2. Method
Task Definition
- 그림 1에서 정의된 것 처럼 본 논문에서 제안하는 기법의 입력은 다음의 2가지
- 단일 얼굴 이미지 $I$, 발화 오디오 클립 $a$
- 목표: 주어진 오디오를 입력의 얼굴이 말하도록 하는 실제적인 합성 비디오를 생성하는 것
- 성공적으로 생성된 비디오는 몇가지 주요한 측면에서 높은 품질을 보여야함
- 이미지 프레임의 명확성, 오디오와 입술 움직임 사이의 정확한 동기화, 표현과 감정이 풍부하게 드러나는 얼굴 움직임, 자연스러운 머리 움직임
- 또한 추가적인 제어 신호를 사용하여 생성을 가이드
- 시선 방향 $g$, 머리와 카메라 사이의 거리 $d$, 감정 $e$
Overall framework
- 직접적으로 이미지 프레임을 생성하는 대신 오디오나 다른 신호들로 조건이 된 잠재 공간에서 전체적인 얼굴과 머리의 움직임을 생성
- 이 움직임에 대한 잠재 코드들 + 얼굴 이미지를 입력하는 하는 얼굴 인코더로부터 추출된 외형 정보를 사용 → 얼굴 디코더를 통해 비디오 프레임을 생성
- 이를 달성하기 위해 얼굴의 잠재 공간을 구축하고 얼굴 인코더, 디코더를 학습
- 단순하지만 강력한 Diffusion Transformer를 사용하여 움직임 분포를 모델링 → 테스트시 오디오와 다른 조건에 대한 움직임 잠재 코드를 생성
2.1. Expressive and Disentangled Face Latent Space Construction
- 목표: 라벨링 되지 않은 talking face 비디오 데이터 셋이 주어졌을 때, 본 논문의 목표는 높은 수준의 분리성 (disentanglement)와 표현성 (expressiveness)를 가지는 사람 얼굴 잠재 공간을 구축하는 것
- 분리성은 많은 비디오로부터 사람의 전체적인 얼굴과 머리의 움직임을 효과적으로 모델링 하는 것 → 출력에 대해 분리된 요소들에 따른 제어가 가능하도록 함
- 얼굴의 외형과 움직임에 대한 표현성은 디코더가 세부적인 얼굴 표현을 포함한 고품질의 비디오를 출력하는 것을 보장
- 이를 달성하기 위해 3D 기반 얼굴 재현 프레임워크를 기반으로 함
- 3D 외형 특징 (feature)은 2D 특징 맵에 비해 외형의 세부적인 부분을 더욱 잘 나타낼 수 있음 → 3D로 된 머리나 머리의 움직임 등을 잘 모델링
- 구체적으로 얼굴 이미지를 다음과 같은 정보들을 담고 있는 특징들로 분리
- $V^{app}$: 3D 외형
- $z^{id}$: 신원 (identity)
- $z^{pose}$: 3D 머리 포즈
- $z^{dyn}$: 얼굴의 움직임
- 위의 각 정보들은 얼굴 이미지로부터 개별적인 인코더를 사용하여 추출됨
- 단, $V^{app}$의 경우는 참고 논문에서 수행한 것처럼 먼저 포즈를 가지는 3D 볼륨을 추출하고 이를 표준 볼륨으로 rigid, non-rigid 3D 워핑 (warping)을 적용하여 구성
- 단일 디코더 $\mathcal{D}$는 해당 잠재 변수를 입력으로 하여 얼굴 이미지를 재구축 → $V^{app}$에 적용하여 3D 외형 볼륨을 얻은 워핑 과정과 유사한 것을 역으로 수행
- 상세한 구조의 경우 아래 논문의 내용 참고
- 분리된 잠재 공간 (Disentangled latent space)을 학습하기 위한 핵심 아이디어 → 비디오의 다른 이미지들 사이의 잠재 변수를 바꾸는 이미지 재구축 손실함수 (image reconstruction loss)를 구축하는 것
- 기본 손실함수
- https://arxiv.org/pdf/2207.07621 논문에서 사용한 손실함수를 그대로 사용
- 하지만 위 손실함수만 사용하는 경우 얼굴의 움직임과 머리의 포즈가 잘 분리되지 않으며 신원 (identity)과 움직임에 대한 분리도 불완전
- pairwise head pose and facial dynamics transfer loss 추가
- $I_i, I_j$: 동일한 비디오에서 한 대상에 대해 샘플링 된 두개의 랜덤 프레임
- 인코더를 통해서 잠재 변수를 추출하고 $I_i$의 머리 포즈를 $I_j$에 전달 → $\hat{I}_{j, z_i^{pose}} = \mathcal{D}(V_j^{app}, z_j^{id}, z_i^{pose}, z_j^{dyn})$
- 그리고 $I_j$의 얼굴 움직임은 $I_i$에 전달 → $\hat{I}_{i, z_j^{dyn}}=\mathcal{D} (V_i^{app}, z_i^{id}, z_i^{pose}, z_j^{dyn})$
- $\hat{I}{j, z_i^{pose}}$와 $\hat{I}{i, z_j^{dyn}}$ 사이의 손실함수를 최소화 하도록 학습
- face identity similarity loss
- 신원 (identity)과 움직임에 대한 분리를 강화하기 위한 손실함수
- $I_s, I_d$는 서로 다른 두 대상에 대한 비디오 프레임
- $I_d$의 움직임을 $I_s$에 적용하여 $\hat{I}{s, z{d}^{pose}, z_d^{dyn}} = \mathcal{D} (V_s^{app}, z_s^{id}, z_d^{pose}, z_d^{dyn})$을 취득
- 그리고 $I_s$와 $\hat{I}{s, z{d}^{pose}, z_d^{dyn}}$ 사이에서 추출된 deep face identity features (https://arxiv.org/pdf/1801.07698) 사이의 코사인 유사도 손실함수를 계산
- 기본 손실함수
2.2. Holistic Facial Dynamics Generation with Diffusion Transformer
- 구축된 얼굴의 잠재 공간과 학습된 인코더가 주어졌을 때 실제 talking face 비디오에서 얼굴과 머리의 움직임을 추출하고 생성 모델을 학습
- 본 논문에서 고려하는 방식 → 오디오를 조건으로 하는 identity-agnostic holistic facial dynamics generation (HFDG) 확산 모델
- 학습된 잠재 코드는 모든 얼굴의 움직임을 나타냄 → 입술의 움직임, (입술 제외) 표현, 시선, 눈 깜빡임
- 트랜스포머 (transformer) 구조 적용
- 그림 2는 본 논문의 HFDG 프레임워크의 개요도를 보여줌
- 비디오 클립으로부터 추출된 움직임의 시퀀스는 $X=\{[z_i^{pose}, z_i^{dyn}]\}, i=1,...,W$로 정의
- 오디오 클립 $a$가 주어졌을 때 오디오 특징 $A=\{f_i^{audio}\}$ 추출 → 사전학습 된 특징 추출기인 Wav2Vec2 사용
Diffusion formulation
- 확산 모델은 2개의 Markov chain을 정의
- forward chain: 타겟 데이터에 점진적으로 가우시안 노이즈를 추가
- reverse chain: 반복적으로 노이즈로부터 원본 신호를 복구
- 단순화 된 손실함수의 결과가 아래와 같음
- $t$: 시간 스텝
- $X^0 = X$: 움직임의 잠재 시퀀스
- $X^t$: 확산 순과정에 의해 생성된 노이즈 입력 → $q(X^t | X^{t-1}) = \mathcal{N} (X^t ; \sqrt{1-\beta_t}X^{t-1}, \beta_t I)$
- $\mathcal{H}$: 원본 신호를 예측하는 트랜스포머 네트워크
- $C$: 텍스트로 묘사된 조건 신호
Conditioning signals
- 오디오 기반 움직임 샘성 문제에서 가장 주요한 조건은 오디오 특징 시퀀스 $A$
- 다음과 같은 몇가지 추가적인 신호들을 조건으로 통합하여 더욱 제어 가능하도록 설정
- 시선 방향 $g=(\theta, \phi)$
- 구면 좌표계 (Spherical coordinates)로 정의
- 생성된 talking face가 쳐다보는 방향을 결정
- 머리와 카메라 사이의 거리 $d$
- 정규화 된 스칼라 값으로 머리와 가상 카메라 사이의 거리를 제어
- 생성된 얼굴 비디오에서 머리의 크기에 영향을 미침
- 감정 $e$
- Talking face의 감정을 결정
- 참고 논문에 의해 추출된 평균 감정 계수 (averaged emotion coefficient)를 감정 신호로 사용
- 시선 방향 $g=(\theta, \phi)$
- 인접한 윈도우 간에 자연스러운 변화를 위해 오디오 특징의 마지막 $K$ 프레임과 이전 윈도우에서 생성된 움직임을 통합하여 현재의 조건으로 사용
- 입력 조건은 다음과 같이 정의 가능 → $C = [X^{pre}, A^{pre};A, g, d, e]$
Classifier-free guidance (CFG)
- 학습 단계에서는 랜덤하게 입력 조건을 누락시킴
- 추론 과정에서는 아래와 같이 적용
- $\lambda_c$: 조건 $c$를 위한 CFG 스케일
- $C|_{c=\emptyset}$: 조건 $c$가 $empty$로 대체된 것을 나타냄
- 학습 동안은 각 조건에 대한 누락 확률을 0.1로 설정 ($X^{pre}, A^{pre}$는 제외는 0.5를 사용)
- 또한 랜덤하게 $A$의 마지막 몇 프레임을 누락 → 윈도우 길이보다 짧은 오디오 시퀀스에 대한 강인한 움직임 생성을 보장
2.3. Talking Face Video Generation
- 추론시 얼굴 이미지와 오디오 클립이 주어짐
- 먼저 학습된 얼굴 인코더를 사용하여 3D 외형 볼륨 $V^{app}$과 신원 (identity) 코드 $z^{id}$를 추출
- 오디오 특징을 추출하고 이를 길이 $W$의 크기로 나눠줌
- 머리와 얼굴의 움직임 시퀀스를 생성 → $\{X=\{[z_i^{pose}, z_i^{dyn}]\}\}$은 하나씩 슬라이딩 윈도우 형식으로 수행되며 학습된 확산 트랜스포머 $\mathcal{H}$를 사용
- 마지막 비디오는 학습된 디코더를 사용하여 순차적으로 생성됨
3. Experiments
Implementation details
- 얼굴의 잠재 공간을 학습하기 위해 VoxCeleb2 데이터셋을 사용
- 6천명의 대상에 대한 talking face 비디오를 포함
- 다수의 사람이 등장하는 클립과 참고 논문의 방법을 사용하여 낮은 품질로 나온 클립은 데이터셋에서 제거
- 확산 네트워크: 8층의 트랜스포머 인코더를 사용하며 임베딩의 크기는 512, 헤드의 수는 8로 설정
- VoxCeleb2 데이터에 3.5K 명의 대상을 포함하는 고해상도의 발화 비디오 데이터셋을 추가하여 학습
- CFG 파라미터는 다음과 같이 설정 → $\lambda_A = 0.5, \lambda_g=1.0$이고 샘플링 스텝은 50으로 사용
Evaluation benchmarks
- 평가를 위해서 2개의 데이터셋 사용
- VoxCeleb2의 테스트 데이터
- 테스트 데이터 중 46명의 대상을 랜덤하게 선택
- 각 대상에 대해 10개의 비디오 클립 샘플링
- 비디오 클립들은 대부분 5~15초 분량 (80% 정도가 10초 이하)
- 긴 발화 생성을 위해 추가적인 평가 데이터 구축
- 17명이 1분간 발화하는 32개의 데이터 수집
- 주로 온라인 코칭이나 교육 영상에서 수집했으며 VoxCeleb2보다 다양한 데이터로 구성됨 → OneMin-32로 이름을 명명
- VoxCeleb2의 테스트 데이터
Inference speed.
- 오프라인 배치 프로세싱으로 512x512 사이즈 크기, 45FPS의 속도로 비디오 프레임을 생성
- 온라인 스트리밍 모드로도 40FPS까지 지원
- NVIDIA RTX 4090 GPU를 가진 데스크탑 PC를 사용해도 170ms 정도의 지연만 발생
3.1. Qualitative Evaluation
Visual results
- 그림 1은 본 기법의 오디오 기반 talking face 생성 결과를 보여줌
- 생생한 얼굴 감정을 포함한 고품질의 비디오 프레임 생성
- 사람과 같이 대화 관련 행동을 생성 → 말하는 동안 시선을 위로 응시한다던지, 눈을 자연스러운 리듬으로 감는 등의 뉘앙스를 생성
Generation controllability
- 그림 3은 시선, 머리의 거리, 감정과 같은 다른 제어 요소를 변경하여 생성한 결과를 보임
- 이는 생성 모델이 해당 신호들을 잘 해석했고 이런 상세한 파라미터와 매우 연관있는 talking face 결과를 생성할 수 있음을 증명
Disentanglement of face latents
- 그림 A.1은 동일한 움직임의 잠재 시퀀스를 다른 대상에 적용한 결과를 나타냄
- 명확한 얼굴의 움직임과 얼굴의 신원을 효과적으로 유지하는 것을 확인할 수 있음
- 이는 신원과 움직임이 효율적으로 분리되는 것을 보여줌
- 그림 A.2는 머리 포즈와 얼굴의 움직임 사이에 효과적인 분리를 나타냄
- 위 그림을 보면 머리 포즈를 고정하고 표정을 바꾸거나 표정을 고정하고 얼굴 포즈만 바꾼 결과들을 확인할 수 있음
Out-of-distribution generation
- 학습 분포 바깥의 사진과 오디오에 대한 처리 능력을 확인
- 위의 2개 행의 경우 예술적인 사진이나 노래부르는 오디오 클립을 사용했으며 마지막 행은 비 영어 발화를 사용 → 학습 데이터에 포함되지 않은 데이터
3.2. Quantitative Evaluation
Evaluation metrics
- 입술 움직임, 머리 포즈, 전체적인 비디오 퀄리티에 대한 정량적 평가 기준을 설정 → 새로운 오디오-포즈 일치도에 대한 데이터도 제안
- 오디오-입술 동기화 (Audio-lip synchronization)
- 사전학습된 오디오-입술 동기화 네트워크를 사용 (i.e. SyncNet)
- 입력 오디오와 생성된 비디오 내 입술 움직임의 일치도를 평가
- 확신에 대한 점수 (confidence score, $S_c$)와 특징의 거리 (feature distance, $S_D$)를 각각 계산
- 높은 $S_C$, 낮은 $S_D$가 일반적으로 더 나은 오디오-입술 동기화 품질을 나타냄
- 오디오-포즈 일치도 (Audio-pose alignment)
- 생성된 머리 포즈와 입력 오디오 사이의 일치도를 평가하는 것은 쉽지 않음
- 본 논문에서는 새로운 데이터 기반 지표를 소개 → Contrastive Audio and Pose Pretraining (CAPP) 점수
- CLIP에 영감을 받아서 포즈 시퀀스 인코더와 오디오 시퀀스 인코더를 동시에 학습하고 포즈 시퀀스와 오디오 쌍에 대해 예측을 수행
- 오디오 인코더는 Wav2Vec2 네트워크를, 포즈 인코더는 랜덤하게 초기화 된 6층의 트랜스포머 네트워크를 사용
- 입력 윈도우 크기 = 3
- CAPP 모델은 2K 시간 만큼의 실제 오디오와 포즈 시퀀스를 통해 학습
- 오디오 입력과 생성된 포즈 사이의 동기화를 평가하는데 강인한 성능을 보임
- 포즈 다양성 강도 (Pose variation intensity)
- 포즈 다양성 정도의 점수 → $\triangle P$를 정의 → 인접한 프레임 사이의 평균적인 포즈 각도 차이
- 모든 생성된 비디오의 프레임들을 평균 → $\triangle P$는 전체적으로 생성된 머리 움직임 정도를 나타냄
- 비디오 퀄리티 (Video quality)
- Frechet Video Distance (FVD)를 사용 → 생성된 비디오 품질 평가
- FVD를 25개의 연속된 프레임 시퀀스를 통해 계산
- 오디오-입술 동기화 (Audio-lip synchronization)
Compared Methods
- 비교를 위한 오디오 기반 talking face 생성 기법 → MakeItTalk, Audio2Head, SadTalker
- MakeItTalk
- LSTM을 사용하여 오디오를 동적인 얼굴의 랜드마크로 변환
- 해당 랜드마크들을 통해서 입력 이미지에 움직임을 부여하는 방식으로 이미지를 비디오 시퀀스로 생성 (이미지 와핑 (warping)이나 인공신경망 기반 이미지 변환 사용)
- Audio2Head
- 모션 인지 회귀 신경망 (motion-aware recurrent network) 사용 → 오디오를 머리 포즈로 변환
- SadTalker
- VAE 네트워크를 사용하여 오디오로 부터 포즈를 생성하고 회귀 네트워크를 통해 오디오로부터 입술에 대한 계수를 생성
- 눈 깜빡임에 대해서는 랜덤 변수를 사용
- 해당 기법은 동일한 오디오 입력으로부터 다양한 포즈와 눈 깜빡임을 생성하지만 눈썹, 시선, 얼굴 표정 등에 대해서는 고정된 패턴을 보임
Main Result
- 고정적인 결과를 보이는 기법인 MakeItTalk나 Audio2Head에 대해서는 단일 비디오만을 생성
- SadTalker나 제안된 기법의 경우 각 오디오에 대해 3개의 비디오를 샘플링하고 도출된 값의 평균값을 사용
- 생성된 프레임으로부터 머리 포즈는 재추출 → 포즈 기반 지표 계산 (i.e. CAPP, $\triangle P$)
- FVD 지표에 대해서는 2K개의 25 프레임 비디오 클립을 사용
- 표1은 VoxCeleb2와 OneMin-32 벤치마크의 결과를 나타냄
- VoxCeleb2의 경우 종종 비디오 품질이 낮은 경우가 있으므로 FVD를 평가하지 않음
- 제안된 기법이 모든 평가 지표에서 가장 뛰어난 성능을 달성
- 오디오-입술 동기화 점수 ($S_C, S_D$)에서는 큰 차이로 다른 기법들의 성능을 능가
- 생성된 포즈들은 특히 OneMin-32 벤치마크에서 오디오와 더 잘 일치 → CAPP 점수로 살펴볼 수 있음
- 머리 움직임은 $\triangle P$를 통해 높은 강도를 보이는 것을 알 수 있음
- FVD 점수는 다른 것보다 낮음 → 훨씬 높은 비디오 품질과 실제성을 보이는 것을 알 수 있음
3.3. Analysis and Ablation Study
CAPP metric
- 오디오와 머리 포즈의 일치도 측정을 위한 CAPP 지표의 효율성을 살펴봄
- 첫번째로 실제 오디오-포즈 쌍에서 프레임에 수동적인 오프셋을 주어 시간적인 이동을 할 때의 민감도를 살펴봄
- VoxCeleb2 테스트셋에서 3초짜리 비디오 클립을 추출 → 2.1K 오디오-포즈 쌍 확보
- 해당 데이터에 대한 평균 CAPP 점수는 0.608 (표 2 참고)
- 수동적인 프레임 이동은 CAPP 점수의 빠른 감소를 이끌어냄 → 두 프레임 이상 이동하면 0에 근접
- 이는 CAPP 점수와 오디오-머리 포즈 일치도 사이에 강인한 연관성이 있음을 보임
- CAPP의 강도에 대한 머리 움직임의 영향을 살펴봄
- 다양한 요소를 사용하여 연속된 프레임 사이의 포즈 차이를 측정
- 표 3을 통해서 움직임 강도를 변경하는 것은 CAPP 점수에 부정적인 영향을 미치는 것을 알 수 있음
CFG scales
- 확산 모델에 대한 CFG 전략은 샘플의 품질과 다양성 사이에서 trade-off를 가짐
- 여기서는 오디오와 시선 조건에 따른 CFG 스케일 선택을 평가할 것 (식 2의 $\lambda_A, \lambda_g$) → 표 4 참고
- $\lambda_g$를 증가시키는 것은 시선 제어의 정확도를 향상시킴
- 오디오 CFG 스케일을 $\lambda_A$로 증가시키는 것은 입술-오디오의 일치도 성능 $(S_C, S_D)$, 포즈-오디오 일치도 (CAPP), 포즈 다양성 강도 $(\triangle P)$를 크게 향상시킴
- 양의 오디오 CFG를 사용하면 입술-오디오 일치도 점수는 실제 비디오를 통해 평가한 것을 능가, 게다가 FVD 점수는 살짝 떨어지면서 약간 더 나은 비디오 품질을 보임
- 하지만 $\lambda_A$를 증가시키는 것은 오디오-포즈 동기화와 시선 제어에 대한 성능을 약간 감소시킴
- 또한 높은 $\lambda_A$는 강한 보컬에서 입의 움직임을 명확하게 증폭시키며 빠른 속도로 머리 포즈가 떨리는 원인이 될 수 있음
- 균형잡힌 성능과 전체적인 생성 품질을 위한 파라미터 → $\lambda_A = 0.5, \lambda_g=1.0$
- 샘플링 스텝이 성능에 미치는 형샹도 평가
- 표 4는 스텝을 50에서 10으로 했을 때 오디오-입술, 오디오-포즈 일치도는 향상되지만 포즈 변화 강도와 전체적인 비디오 품질은 저하됨
- 이런 스텝 감소는 추론 과정을 가속화 할 수 있음
4. Conclusion
- VASA-1을 제안 → 오디오 기반 talking face 생성 모델로 단일 이미지와 오디오 입력을 통해 실제적인 입술 동기화, 활기찬 얼굴 표현, 자연스러운 머리 움직임을 효율적으로 생성
- 기존 기법들을 비디오 품질, 성능 효율성 측면에서 큰 차이로 능가
- 표현력 있으면서도 분리된 얼굴 잠재 공간에서 동작하는 얼굴과 머리 움직임 생성 모델
Limitation and future work
- 몇몇의 한계점이 있음 → 사람의 몸통 위쪽 영역에 대해서만 생성 가능
- 머리나 옷 같은 비강체 요소에 대해서는 동작하지 않음
- 더욱 다양한 발화 스타일과 감정을 표현할 수 있도록 표현력과 제어 능력을 향상시킬 예정