Polyglot:音声駆動の顔アニメーションにおける多言語・スタイル保持

arXiv cs.CV / 2026/4/20

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、Speech-Driven Facial Animation(SDFA)の多言語化に取り組み、従来の単一言語データで学習したモデルが実環境の多言語シナリオで性能を発揮しにくい点を指摘しています。
  • そのために、Polyglotという拡散モデルベースの統一アーキテクチャを提案し、言語情報(文字起こし埋め込み)と話者ごとの話し方(参照顔シーケンスから抽出したスタイル埋め込み)を同時に扱います。
  • 本手法は自己教師あり学習により、あらかじめ言語や話者ラベルを用意する必要をなくし、言語・話者間での汎化を狙います。
  • 実験では単一言語・多言語の両設定で性能向上が示され、リズム、発音(アーティキュレーション)、音声に結びつく表情、さらに習慣的な顔の動きまでより適切に反映できることが報告されています。
  • 言語と個人のスタイルを同時条件付けすることで、時間的に破綻しにくく、よりリアルな音声駆動顔アニメーションを生成できる点が主張されています。

要旨: 音声駆動型顔アニメーション(SDFA)は、映画、ビデオゲーム、仮想現実などへの応用により大きな注目を集めています。しかし、既存のほとんどのモデルは単一言語のデータで学習されており、現実の多言語環境での有効性が制限されています。本研究では、多言語SDFAに取り組みます。これは、言語が音声学(phonet​​ics)、リズム、イントネーション、そして顔の表情に影響を与えるため、現実的な生成に不可欠です。また、話し方のスタイルは言語だけでなく個人差によっても形成されます。既存手法は通常、言語固有または話者固有の条件付けのいずれかに依存しており、その両方の相互作用をモデル化する能力が制限されています。そこで私たちは、個人化された多言語SDFAのための統一拡散ベース構造「Polyglot」を提案します。本手法では、文字起こし(トランスクリプト)の埋め込みを用いて言語情報を符号化し、参照となる顔シーケンスから抽出したスタイル埋め込みを用いて個人の発話特性を捉えます。Polyglotは事前に定義された言語ラベルや話者ラベルを必要とせず、自身に基づく教師なし学習(self-supervised learning)により、言語と話者の双方にわたって汎化を可能にします。言語とスタイルの両方を同時に条件付けすることで、リズム、明瞭な発音(articulation)、そして習慣的な顔の動きといった表出的特徴を捉え、時間的に整合した、現実的なアニメーションを生成します。実験の結果、多言語設定だけでなく単言語設定においても性能が向上し、SDFAにおいて言語と個人的スタイルをモデル化するための統一的な枠組みを提供することが示されました。