音声を損なわない顔の表情操作のための、空間・時間にまたがる整合的相関の学習

arXiv cs.CV / 2026/4/23

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、発話内容に関連する口元のアニメーションを慎重に維持しつつ、感情の表情を変更することを目的とした音声保持型顔表情操作（SPFEM）を扱っています。
それは、同一人物で「同じ発話内容だが感情表現が異なる」対応ペアの訓練データが利用できなくても、異なる感情で同内容を伝える話者には、局所的な顔アニメーションの相関が空間・時間の両方で強く見られることを示しています。
提案手法STCCL（Spatial-Temporal Coherent Correlation Learning）は、この相関を明示的な指標としてモデル化し、表情操作の生成を監督しながら音声に結びつく顔の動きをより良く保持することを目指します。
STCCLは、空間側と時間側の整合的相関メトリクスをそれぞれ学習し、さらに難しさが大きい領域を優先する相関に配慮した適応的戦略を組み込みます。
訓練中は、入力フレームと出力（生成）フレームの対応する局所領域間に対して空間・時間の整合的相関損失を構築し、SPFEMモデルの生成プロセスを導きます。

要旨: 音声保持型の表情操作（SPFEM）は、話し言葉に関連する口元のアニメーションを細心に維持しながら、顔の感情を変更することを目的とする。現行の研究は、人に対する利用不能なペア学習サンプルに依存しており、2つの整合したフレームが同じ発話内容を示しつつ感情表現が異なるという条件を必要とするため、実環境でのSPFEMの適用が制限されている。本研究では、同じ内容を異なる感情で伝える話者は、空間的・時間的の両方の領域において、局所的な顔アニメーションが高い相関を示すことを見出し、SPFEMにとって有益な教師信号となることを示す。この知見を活用するために、相関を明示的な指標として捉え、それらの指標を統合して顔の表情操作を監督しつつ、同時に話し言葉に関連する顔アニメーションの保存もより良く行う新しい空間-時間一貫相関学習（STCCL）アルゴリズムを提案する。具体的には、まず画像内の隣接する局所領域の視覚的相関が特定の感情に結び付いた画像でどの程度似ているかを保証する、空間一貫相関指標を学習し、当該画像で対応する領域が別の感情に結び付いた画像の対応領域と密接に似るようにする。同時に、時間一貫相関指標も開発し、ある感情に結び付いた隣接する画像フレーム間での特定領域の視覚的相関が、もう一方の感情に結び付いたフレームの対応領域における相関と類似するようにする。視覚的相関は全ての領域で一様ではないことを踏まえ、より困難さが大きい領域を優先する、相関を意識した適応的戦略も設計した。SPFEMモデルの学習時には、入力および出力画像フレームの対応する局所領域間において、空間-時間一貫相関指標を追加損失として構築し、この指標を生成プロセスの監督に用いる。