トーキングフェイス動画における感情編集のためのクロスモーダル感情転送
arXiv cs.CV / 2026/4/10
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、音声と顔の視覚特徴空間の間で感情の意味(セマンティクス)を対応付けることで、トーキングフェイス動画生成におけるより柔軟な感情編集を可能にする「クロスモーダル感情転送(C-MET)」を提案する。
- C-METは、従来のラベルベース手法(離散的な感情カテゴリ)、音声のみの手法(感情と発話内容の絡み合い)、画像参照手法(特定のビュー要件や、拡張された感情に対応する参照データの必要性)といった限界に対処する。
- 本アプローチは、大規模な事前学習済み音声エンコーダと、分離された顔表情エンコーダを用いて、モダリティ間の感情埋め込みの差を表す感情セマンティクス・ベクトルを学習する。
- MEADおよびCREMA-Dでの実験では、最先端手法に対して感情精度が14%向上したことが示され、皮肉(サルカズム)のような未見の拡張感情に対しても表現力のある結果が得られることを示す。
- 再現性および下流の実験を支援するために、著者らはコード、チェックポイント、デモを提供している。




