[논문리뷰] - VASA-1: Lifelike Audio-Driven Talking Faces Generated in Real Time - 마이크로소프트가 내놓은 괴물

Abstract

We introduce VASA, a framework for generating lifelike talking faces with appealing visual affective skills (VAS) given a single static image and a speech audio clip. Our premiere model, VASA-1, is capable of not only producing lip movements that are exquisitely synchronized with the audio, but also capturing a large spectrum of facial nuances and natural head motions that contribute to the perception of authenticity and liveliness. The core innovations include a holistic facial dynamics and head movement generation model that works in a face latent space, and the development of such an expressive and disentangled face latent space using videos. Through extensive experiments including evaluation on a set of new metrics, we show that our method significantly outperforms previous methods along various dimensions comprehensively. Our method not only delivers high video quality with realistic facial and head dynamics but also supports the online generation of 512x512 videos at up to 40 FPS with negligible starting latency. It paves the way for real-time engagements with lifelike avatars that emulate human conversational behaviors.

VASA는 단일 정적 이미지와 음성 클립이 주어졌을 때, 매력적인 시각적 정서 기술(VAS)을 갖춘 생생한 말하는 얼굴을 생성하기 위한 프레임워크입니다. 우리의 첫 번째 모델인 VASA-1은 오디오와 절묘하게 동기화된 입 움직임을 생성할 뿐만 아니라, authenticity와 생동감을 인식하는 데 기여하는 다양한 얼굴 뉘앙스와 자연스러운 머리 움직임을 포착할 수 있습니다. 핵심 혁신에는 얼굴 잠재 공간에서 작동하는 전체론적 얼굴 역학 및 머리 움직임 생성 모델과 비디오를 사용하여 이러한 표현력 있고 분리된 얼굴 잠재 공간을 개발하는 것이 포함됩니다. 새로운 메트릭 세트에 대한 평가를 포함한 광범위한 실험을 통해, 우리는 우리의 방법이 다양한 차원에서 이전 방법을 종합적으로 크게 능가한다는 것을 보여줍니다. 우리의 방법은 사실적인 얼굴 및 머리 역학으로 높은 비디오 품질을 제공할 뿐만 아니라 무시할 만한 시작 지연 시간으로 최대 40FPS에서 512x512 비디오의 온라인 생성도 지원합니다. 이는 인간의 대화 행동을 모방하는 생생한 아바타와 실시간 교감을 위한 길을 열어줍니다.

 

여러분은 가상 인간과 자연스럽게 대화를 나누는 상상을 해 보신 적 있으신가요?

최근 마이크로소프트 리서치 아시아의 연구진들이 발표한 'VASA-1'는 그런 상상을 현실로 만들어 줄 잠재력을 가지고 있습니다.

단 한 장의 이미지와 음성 클립만 있으면 누구나 실시간으로 말하고 웃고 고개를 끄덕이는 생생한 아바타를 만들어 낼 수 있게 된 것이죠. 이전의 비슷한 연구인 EMO?같은 연구를 본 적이 있습니다. 아마 보셨을거예요. 

최근 몇 년 동안 이미지 생성 분야는 Diffusion model의 성공에 힘입어 엄청난 결과물들이 쏟아졌는데요. 

일반적인 동영상 합성뿐만 아니라 talking head 등 인간 중심의 동영상 생성에 최근 연구의 포커싱이 맞춰진 것 같습니다. 

Talking head의 목적은 사용자가 제공한 오디오 클립에서 표정을 생성하거나 커뮤니케이션 및 협업 등에서 큰 역할을 할 수 있습니다.

AI와 인간의 상호작용을 가능하도록 개선하고 다양한 분야에서 가치와 새로운 경험을 창출할 수 있도록 해주는 것이죠. 

 

Main Idea 

Holistic Facial Dynamics and Head Movement Generation: VASA-1은 기존 연구들과 달리 입 움직임, 표정, 눈 움직임, 머리 움직임 등 모든 얼굴 역학을 하나의 통합된 latent variable로 고려하여 diffusion 모델로 학습합니다. 이를 통해 각 요소들을 따로 다루던 기존 방식들의 한계를 극복하고, 더욱 자연스럽고 조화로운 얼굴 움직임을 생성할 수 있게 되었습니다.

 

Expressive and Disentangled Face Latent Space: 방대한 실제 영상 데이터로부터 표현력이 풍부하고 disentangle된 얼굴 잠재 공간을 학습하는 것이 VASA-1의 또 다른 핵심입니다. 이를 위해 3D 얼굴 표현 기반의 face autoencoder를 활용하되, 각 요소(appearance, identity, head pose, facial dynamics)를 독립적으로 추출하고 여러 샘플들 간에 swap하는 방식으로 loss를 구성하여 disentanglement를 강화하였습니다.

 

Audio-Driven Generative Model with Control Signals: VASA-1은 오디오를 주된 입력 신호로 받아 facial dynamics와 head pose를 생성하는 diffusion 모델을 학습합니다. 추가로 시선 방향, 얼굴 크기, 감정 조절 값 등의 control signal을 condition으로 활용하여 생성 과정에 반영할 수 있습니다. 또한 classifier-free guidance 기법을 통해 오디오와 control signal에 더욱 alignment된 결과를 합성하게 만듭니다.

 

Comprehensive Evaluation with New Metrics: 기존의 립싱크나 비디오 품질 평가 지표 외에도 오디오-머리 움직임 간 정렬도를 측정하는 CAPP 지표를 새롭게 제안하고, 머리 움직임의 역동성을 측정하기 위한 pose variation intensity 지표 등을 활용하여 talking head 생성 능력을 다각도로 평가하였습니다. 그 결과 VASA-1은 립싱크 정확도, 얼굴 표정, 머리 움직임, 전반적인 생성 품질 측면에서 이전 연구들을 종합적으로 앞서는 것으로 나타났습니다.

 

Real-Time High-Resolution Video Generation: 많은 연산량을 요구하는 diffusion 기반 모델임에도 불구하고, VASA-1은 추론 시 pose와 expression을 latent space에서 먼저 생성한 뒤 decoder에 입력하는 two-stage 구조를 취함으로써 빠른 속도를 달성했습니다. 그 결과 매우 짧은 지연 시간으로 512x512 해상도에 초당 40 프레임의 실시간 비디오 생성이 가능하게 되었고, 이는 실시간 인터랙티브 아바타 개발에 큰 의의가 있습니다.

 

Key Points

- Expressive and Disentangled Face Latent Space 충분한 표현력과 disentanglement 특성을 지닌 얼굴 잠재 공간을 실제 talking face 영상들로부터 학습했다는 점이 매우 매력적입니다. 

 

- 특히 이 모델이 인상깊었던 점은 EMO와 다르게 극소의 입력 값으로도 인상적인 결과물을 창출했다는 것인데요. 오디오 클립과 사진 한 장으로 모나리나가 랩을 하는 영상을 만들어내는 시연을 선보였죠.(https://www.microsoft.com/en-us/research/project/vasa-1/)

해당 영상을 보시면 시선 처리, 객체와 카메라의 거리, 머리의 움직임 등 부자연스러움이 매우 감소했다는 점이 인상깊습니다. 

 

- 본 논문에서는 CAPP(Contrastive Audio and Pose Pretraining)라는 metric을 새로 제안합니다. 이는 CLIP(Contrastive Language-Image Pretraining) 모델의 아이디어를 차용하여, 오디오 인코더와 포즈 시퀀스 인코더를 대조적으로 학습시킨 모델을 활용합니다. 이를 통해 음성과 머리 움직임 간 정렬 정도를 정량화할 수 있게 되었고, 다양한 생성 모델의 퍼포먼스를 객관적으로 비교할 수 있게 되었습니다.

Interesting Points in Paper

 

VASA-1 프레임워크의 전체적인 파이프라인
input으로 단일 초상화 이미지와 음성 클립 + 주요 시선 방향 , 머리-카메라 거리, 감정 오프셋 등의 control signals를 사용할 수 있습니다. 512x512 해상도의 고품질 대화형 얼굴 영상을 40FPS 속도로 생성 가능합니다.

 

“Creating talking faces from audio has attracted significant attention in recent years with numerous approaches proposed [75, 37, 73, 49, 23, 59, 60, 58, 68, 72, 34, 24]. However, existing techniques are still far from achieving the authenticity of natural talking faces. Current research has predominantly focused on the precision of lip synchronization with promising accuracy obtained [37, 58]. The creation of expressive facial dynamics and the subtle nuances of lifelike facial behavior remain largely neglected. This results in generated faces that seem rigid and unconvincing. Additionally, natural head movements also play a vital role in enhancing the perception of realism. Although recent studies have attempted to simulate realistic head motions [59, 68, 72], there remains a sizable gap between the generated animations and the genuine human movement patterns.” 

 

기존 기술의 한계


현재의 연구는 주로 입 모양의 동기화의 정밀도에 초점을 맞추고 있으며, 표현력 있는 얼굴 동작과 생동감 있는 얼굴 행동의 미묘한 뉘앙스 생성은 대부분 간과되고 있습니다. 또한 자연스러운 머리 움직임은 리얼리즘의 인식을 향상시키는 데 중요한 역할을 하지만, 이를 시뮬레이션하는 최근 연구들은 아직 진정한 인간 움직임 패턴과의 큰 격차가 있습니다.

 

“VASA-1 has collectively advanced the realism of lip-audio synchronization, facial dynamics, and head movement to new heights. Coupled with high image generation quality and efficient running speed, we achieved real-time talking faces that are realistic and lifelike. Through detailed evaluations, we show that our method significantly outperforms existing methods. We believe VASA-1 brings us closer to a future where digital AI avatars can engage with us in ways that are as natural and intuitive as interactions with real humans, demonstrating appealing visual affective skills for more dynamic and empathetic information exchange.”

 

VASA-1은 오디오에서 생성된 말하는 얼굴을 현실적이고 생동감 있게 만드는 새로운 방법을 제안합니다. 정적 이미지와 음성 클립을 주어진 상태에서, VASA-1은 눈에 띄게 동기화된 입 움직임뿐만 아니라 다양한 자연스러운 인간과 같은 얼굴 동작과 머리 움직임을 생성할 수 있습니다.

 

“Our generation process can also accept a set of optional control signals to guide the generation, which include the main eye gaze direction g, head-to-camera distance d, and emotion offset e. More details will be provided in the later sections.” 

 

시선 : g
머리와 카메라간 거리 : d
감정 오프셋 : e

+ 추가적인 디테일들

 

 

Diffusion Transformer를 사용하여 음성 특징과 다른 조건 신호로부터 얼굴 동작과 머리 자세 latent space를 생성

 

“Diffusion models define two Markov chains [25, 45, 46], the forward chain progressively adds Gaussian noise to the target data, while the reverse chain iteratively restores the raw signal from noise.” 

 

마르코프 체인
순방향 체인 (Forward chain): 데이터 X_0 에서 시작하여 점차적으로 잡음을 추가하는 과정. 시간에 따라 X_t에서 X_t+1 로의 전환은 잡음을 추가하여 점차적으로 데이터를 변형시키는 것을 의미합니다.

역방향 체인 (Reverse chain): 노이즈 데이터 X_T 에서 시작하여 원본 데이터 X_0으로 복원하는 과정. 이 체인은 X_t에서 X_t-1로의 전환을 통해 점차 잡음을 제거하며 원래의 데이터를 복원한다.

 

 

Conditioning Signals의 종류와 기능

1. 오디오 특성 (Audio Features)
- audio feautre는 diffusion 모델의 주요 조건 신호로 사용됩니다. 이 신호를 통해 모델이 음성과 일치하는 입 모양과 얼굴 표정을 생성할 수 있도록 처리합니다.

2. 시선 방향 (Main Eye Gaze Direction)
- 시선의 주된 방향은 3차원 구면 좌표를 사용하여 정의합니다. 이는 생성된 말하는 얼굴이 특정 방향을 바라보게 처리됩니다. 시선의 방향은 훈련용 비디오에서 간단한 히스토그램 기반 클러스터링 알고리즘을 사용하여 추출합니다.

3. 카메라와 머리의 거리(Head-to-Camera Distance)
- 이 신호는 생성된 얼굴 비디오에서 얼굴의 스케일을 조절하는 데 사용됩니다. 머리와 카메라 사이의 거리는 정규화된 스칼라 값으로 표현되며, 이는 비디오 내 얼굴의 크기에 영향을 줍니다.

4. 감정 오프셋(Emotion Offset)
- 감정 오프셋은 오디오에서 유추할 수 있는 감정을 향상 혹은 변경할 때 사용합니다. 이 신호는 입력 오디오와 일치하지 않는 감정을 생성할 때는 사용하지 않으며, 감정의 미세한 조절이 필요할 때 사용합니다.

 

 

CFG의 주목표는 조건부 생성에서 사용되는 특정 조건의 영향을 효과적으로 조절하는 것입니다. 일반적인 Diffusion 모델은 데이터 분포 전체를 모델링하려 합니다. 하지만 우리가 원하는 것은 고품질의 샘플을 생성하는 것이죠.

CFG는 입력 조건을 완전히 제거하거나 무작위로 Drop시키는 방식으로 작동합니다. 학습 단계에서는 각 입력 조건을 무작위로 생략하고, 추론 단계에서는 이러한 조건을 사용하거나 일부를 생략함으로써 생성된 출력의 품질을 향상시시킵니다.

 

 

 

구현 세부 사항

VoxCeleb2 데이터셋을 사용하여 얼굴 latent space 학습을 수행했습니다. 이 데이터셋은 약 6천명의 말하는 얼굴 비디오 클립이 포함됩니다. motion latent generation을 위해 8개 층의 transformer encoder와 512의 임베딩 차원을 사용했으며, 추가적으로 고해상도 말하는 비디오 데이터셋도 수집하여 사용.

평가 벤치마크

VoxCeleb2의 하위 그룹과 새로 수집한 OneMin-32 데이터셋을 사용하여 수행했습니다. OneMin-32 데이터셋은 보다 다양한 보컬 변화를 포함하는 1분 길이의 클립들로 구성되어 있습니다. 주요 평가 지표로는 audio-lip 동기화, audio-자세의 정렬, 포즈 변화 강도 및 비디오 품질을 포함한 FVD가 사용되었음.

 

 

제어 신호를 통해 생성된 말하는 얼굴.
이 그림의 각 행을 보면 첫 번째 행은 시선 처리 별(정면,좌측,우측,상단) 결과를 보여줍니다.
두 번째 행을 보면 카메라와 머리의 거리에 따른 결과이고, 마지막 행은 감정 오프셋(중립,행복,화남,놀람)에 따른 결과입니다.

 

 

동일한 latent code를 다른 이미지에 적용한 결과. 해당 그림은 동일한 동작 잠재 코드가 서로 다른 얼굴 이미지에 적용될 때 얼마나 효과적으로 동작과 신원을 분리할 수 있는지 보여줍니다.

 

 

상단 행: 원래 생성된 시퀀스를 보여줍니다. 이는 모델이 생성한 기본적인 얼굴 동작과 머리 자세의 조합을 나타냅니다.
중간 행: 생성된 머리 자세를 유지하면서 초기 얼굴 동작만 변경하여 적용한 결과를 보여줍니다. 이는 머리 자세가 변하지 않고 얼굴 동작만 변경될 때 결과가 어떻게 달라지는지를 보여줍니다.
하단 행: 초기 머리 자세를 고정시키고, 사전 정의된 회전 자세와 함께 생성된 얼굴 동작을 적용한 결과를 보여줍니다. 이는 얼굴 동작이 머리 자세와 독립적으로 어떻게 변할 수 있는지를 보여줍니다

 

 

상단의 두 행은 노래를 부르는 오디오와 함께 아티스틱한 사진에서 생성된 말하는 얼굴을 보여줍니다. 이는 모델이 음악적 요소와 매칭되는 얼굴 표현을 생성할 수 있음을 보여줍니다.
하단 행은 다양한 언어의 오디오를 사용할 때 생성된 결과를 보여준다. 이는 모델이 영어 이외의 언어에 대해서도 효과적으로 작동할 수 있음을 보여줍니다.

 

 

Table1.
Table 1은 VoxCeleb2 데이터셋을 사용하여 VASA-1 및 기타 방법들(MakeItTalk, Audio2Head, SadTalker)의 성능을 비교합니다.
SC (Audio-lip synchronization confidence): 입술 동기화의 신뢰도를 나타내며, 높을수록 좋습니다.
SD (Feature distance): 오디오와 입술 움직임 사이의 특징 거리로, 낮을수록 좋습니다.
CAPP (Contrastive Audio and Pose Pretraining score): 오디오와 자세 간의 정렬을 평가하는 새로운 지표로, 높을수록 좋습니다.
∆P (Pose variation intensity): 포즈 변화 강도로, 높을수록 동적이고 표현력 있는 포즈를 의미합니다.

Table 2: OneMin-32 벤치마크 결과
+ FVD25 (Fréchet Video Distance for 25 frames): 비디오 품질을 평가하는 지표로, 낮을수록 좋습니다. 실제 비디오와 비교하여 생성된 비디오의 비주얼 품질을 평가합니다.

 

 

반응형