個人化クロスモーダル感情相関学習による、発話を保持する顔表情操作
arXiv cs.CV / 2026/4/29
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 発話に紐づく口の動きを変えずに表情の表現力を高めることを目的とするスピーチ・プリザービング顔表情操作(SPFEM)は、同一人物かつ発話は同じで表情だけ異なるペアデータの不足により学習が難しい。
- 本論文は、VLM(視覚言語モデル)由来の監督を強化するPCMECLを提案し、個人の視覚情報に基づいて感情ごとのパーソナライズされたプロンプトを学習することで、表情の個人差をより細かく扱う。
- さらに、視覚特徴と意味特徴の分布の不一致に対して、特徴差分(feature differencing)でモダリティ間の変化を対応づけ、より正確に整合した監督を行う。
- PCMECLはプラグアンドプレイ型のモジュールとして既存のSPFEMモデルに統合でき、複数データセットで優れた性能が示されている。



