AI Navigate

TDMM-LM: 言語モデルを介して表情理解とアニメーションを結ぶ

arXiv cs.CV / 2026/3/19

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 著者らは基盤となる生成モデルを活用して、感情と頭部の運動をカバーするプロンプト群を用い、約80時間の表情動画を合成し、各フレームの3D表情パラメータにフィットさせることで、大規模なプロンプトとパラメータの学習データを作成する。
  • 彼らは双方向の2つのタスク—Motion2LanguageとLanguage2Motion—を定義し、それらは3D表情パラメータの系列と言語の説明またはプロンプトとの間をマッピングして、テキスト条件付きアニメーションを実現する。
  • 広範な実験により、言語モデルは表情の動きを解釈しつつ合成する能力を持ち、強い一般化性能を示し、表情パラメータのモデリングを効果的に言語の問題として捉えることができる。
  • 本研究は、テキスト条件付きの表情アニメーションと動作理解の統一的な道筋を確立し、アニメーションのパイプラインがデータ生成とクロスモーダル推論に取り組む方法を変える可能性がある。

要旨: テキスト指向の人間の身体のアニメーションは急速に進化しているが、適切に注釈付けされ、テキストと対になった顔のコーパスが不足しているため、表情アニメーションは遅れている。このギャップを埋めるべく、我々は基盤生成モデルを活用して、顔の挙動の大規模でバランスの取れたコーパスを合成する。感情と頭部の動きを網羅するプロンプト群を設計し、複数の生成器を用いて約80時間の顔動画を生成し、各フレームの3D顔パラメータを適合させ、学習用の大規模な(プロンプトとパラメータ)ペアを生み出す。 このデータセットを基に、私たちは顔のモーションに対する双方向の能力を、二つの補完的なタスクを通じて言語モデルで検証する。 一つ目は Motion2Language:3D顔パラメータの連なりを与えると、モデルは内容・スタイル・ダイナミクスを捉えた自然言語の説明を生成する。 二つ目は Language2Motion:プロンプトを与えると、モデルは下流のアニメーション用に量子化されたモーション・トークンを介して対応する3D顔パラメータの連続を合成する。 広範な実験は、この設定では言語モデルが表情モーションを解釈するとともに、強い一般化能力を持って合成できることを示している。われわれの知る限り、本研究は顔パラメータのモデリングを言語問題として扱う初の試みであり、テキスト条件付きの表情アニメーションとモーション理解への統一的な道を確立する。