個人化クロスモーダル感情相関学習による、発話を保持する顔表情操作

arXiv cs.CV / 2026/4/29

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 発話に紐づく口の動きを変えずに表情の表現力を高めることを目的とするスピーチ・プリザービング顔表情操作(SPFEM)は、同一人物かつ発話は同じで表情だけ異なるペアデータの不足により学習が難しい。
  • 本論文は、VLM(視覚言語モデル)由来の監督を強化するPCMECLを提案し、個人の視覚情報に基づいて感情ごとのパーソナライズされたプロンプトを学習することで、表情の個人差をより細かく扱う。
  • さらに、視覚特徴と意味特徴の分布の不一致に対して、特徴差分(feature differencing)でモダリティ間の変化を対応づけ、より正確に整合した監督を行う。
  • PCMECLはプラグアンドプレイ型のモジュールとして既存のSPFEMモデルに統合でき、複数データセットで優れた性能が示されている。

Abstract

音声維持型の表情操作(SPFEM)は、元の発話に結び付いた口の動きを変えることなく、人の表現力を高めることを目的とします。この領域における主要な課題は、対応データの不足、すなわち同一人物の同一音声に対して異なる表情を持つ、整列されたフレーム(対応する画像)の欠如です。これにより、感情操作のための直接的な教師あり学習が困難になります。現在の視覚・言語モデル(VLM)は、整列した視覚的特徴と意味的特徴を抽出できるため、教師データの有望な供給源となり得ますが、それらを直接適用することには限界があります。そこで本研究では、2つの主要な改善によってVLMベースの教師あり信号を洗練するパーソナライズド・クロスモーダル感情相関学習(PCMECL)アルゴリズムを提案します。第一に、標準的なVLMは各感情に対して単一の汎用プロンプトに依存しており、個人間における表情の多様性を捉えられていません。PCMECLはこの制限を、個人の視覚情報を条件として個別化したプロンプトを学習することで解決し、よりきめ細かな視覚・意味間の相関を確立します。第二に、たとえ個別化を行っても、視覚的特徴分布と意味的特徴分布の間には本質的な不一致が残ります。このモダリティギャップを埋めるために、PCMECLは特徴差分(feature differencing)を用いてモダリティ間の相関を計算します。すなわち、視覚的特徴の変化と意味的特徴の変化を対応付けることで、より正確に整列した教師信号を提供します。プラグアンドプレイのモジュールとして、PCMECLは既存のSPFEMモデルにシームレスに組み込むことができます。さまざまなデータセットにわたる大規模な実験により、本アルゴリズムの優れた有効性が示されます。