EAD-Net：空間的リファインメントと時間的コヒーレンスを備えた感情認識トーキングヘッド生成

arXiv cs.CV / 2026/4/28

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本稿では、口の動きの正確な同期と感情表情の制御を両立する、拡散モデルベースの感情認識トーキングヘッド生成フレームワークEAD-Netを提案している。
先行手法の単純な感情ラベル依存による情報不足を補うため、大規模言語モデルで実動画からテキスト記述を抽出して高レベル意味的ガイダンスを与えつつ、SyncNet監督とTemporal Representation Alignment（TREPA）でマルチモーダル融合に起因するリップシンク劣化を抑えている。
長尺動画の生成においては、Strip Attentionを用いたSpatio-Temporal Directional Attention（STDA）により、長い時空間の依存を捉えてグローバルな動きの把握と時間的安定性を高めている。
さらにフレーム間の時間的一貫性を、Temporal Frame graph Reasoning Module（TFRM）によるグラフ構造学習で明示的に推論することで強化している。
HDTFおよびMEADデータセットでの実験では、既存手法よりもリップシンク精度、時間的整合性、感情精度の各面で改善が報告されている。

概要: 感情のあるトーク頭部ビデオ生成は、正確な口形（リップシンク）同期と感情的な顔の表情を備えた、表情豊かなポートレート映像を生成することを目的とする。現在の手法は単純な感情ラベルに依存しており、十分な意味情報が得られない。高レベルの意味を導入すると表現力は高まるが、リップシンクの劣化が起きやすい。さらに、主流の生成手法は、長尺動画において計算効率とグローバルな動きの認識の両立に苦労しており、また時間的な一貫性（テンポラル・コヒーレンス）が不十分である。そこで本研究では、
\textbf{E}motion-
\textbf{A}ware
\textbf{D}iffusion モデルに基づく
\textbf{Net}work を提案する。提案手法は
\textbf{EAD-Net} と呼ばれる。多モーダル融合によって引き起こされるリップシンク劣化を緩和するために、SyncNet による監督と、Temporal Representation Alignment（TREPA）を導入する。長尺動画系列における複雑な時空間依存をモデル化するために、ストリップ注意（strip attention）によってグローバルな動きのパターンを捉える Spatio-Temporal Directional Attention（STDA）機構を提案する。加えて、Temporal Frame グラフ推論モジュール（TFRM）を設計し、グラフ構造学習を通じて動画フレーム間の時間的な一貫性を明示的にモデル化する。感情の意味的制御を強化するために、大規模言語モデルを用いて実動画からテキスト記述を抽出し、高レベルの意味的ガイダンスとして活用する。HDTF および MEAD データセットに関する実験により、本手法が口形同期精度、時間的一貫性、感情精度の観点で既存手法を上回ることを示す。