TDMM-LM: 言語モデルを介して表情理解とアニメーションを結ぶ

arXiv cs.CV / 2026/3/19

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

著者らは基盤となる生成モデルを活用して、感情と頭部の運動をカバーするプロンプト群を用い、約80時間の表情動画を合成し、各フレームの3D表情パラメータにフィットさせることで、大規模なプロンプトとパラメータの学習データを作成する。
彼らは双方向の2つのタスク—Motion2LanguageとLanguage2Motion—を定義し、それらは3D表情パラメータの系列と言語の説明またはプロンプトとの間をマッピングして、テキスト条件付きアニメーションを実現する。
広範な実験により、言語モデルは表情の動きを解釈しつつ合成する能力を持ち、強い一般化性能を示し、表情パラメータのモデリングを効果的に言語の問題として捉えることができる。
本研究は、テキスト条件付きの表情アニメーションと動作理解の統一的な道筋を確立し、アニメーションのパイプラインがデータ生成とクロスモーダル推論に取り組む方法を変える可能性がある。

要旨: テキスト指向の人間の身体のアニメーションは急速に進化しているが、適切に注釈付けされ、テキストと対になった顔のコーパスが不足しているため、表情アニメーションは遅れている。このギャップを埋めるべく、我々は基盤生成モデルを活用して、顔の挙動の大規模でバランスの取れたコーパスを合成する。感情と頭部の動きを網羅するプロンプト群を設計し、複数の生成器を用いて約80時間の顔動画を生成し、各フレームの3D顔パラメータを適合させ、学習用の大規模な（プロンプトとパラメータ）ペアを生み出す。このデータセットを基に、私たちは顔のモーションに対する双方向の能力を、二つの補完的なタスクを通じて言語モデルで検証する。一つ目は Motion2Language：3D顔パラメータの連なりを与えると、モデルは内容・スタイル・ダイナミクスを捉えた自然言語の説明を生成する。二つ目は Language2Motion：プロンプトを与えると、モデルは下流のアニメーション用に量子化されたモーション・トークンを介して対応する3D顔パラメータの連続を合成する。広範な実験は、この設定では言語モデルが表情モーションを解釈するとともに、強い一般化能力を持って合成できることを示している。われわれの知る限り、本研究は顔パラメータのモデリングを言語問題として扱う初の試みであり、テキスト条件付きの表情アニメーションとモーション理解への統一的な道を確立する。

ブームの裏で制御AI未導入54％、工場の自動化阻むコストと人材不足

日経XTECH

光電融合の製造受託に野心、新光電気「TSMCにはない魅力を」

日経XTECH

中国AI企業が他社製AIを「ただ乗り蒸留」か米社が主張、安全保障リスクも

日経XTECH

高1数学で理解できる機械学習、回帰直線のグラフ表示へ

日経XTECH

AIで人月商売はもう終わり、人売りベンダーの技術者は速やかに逃げ出せ

日経XTECH

TDMM-LM: 言語モデルを介して表情理解とアニメーションを結ぶ

要点

関連記事

ブームの裏で制御AI未導入54％、工場の自動化阻むコストと人材不足

光電融合の製造受託に野心、新光電気「TSMCにはない魅力を」

中国AI企業が他社製AIを「ただ乗り蒸留」か米社が主張、安全保障リスクも

高1数学で理解できる機械学習、回帰直線のグラフ表示へ

AIで人月商売はもう終わり、人売りベンダーの技術者は速やかに逃げ出せ

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

ブームの裏で制御AI未導入54％、工場の自動化阻むコストと人材不足

光電融合の製造受託に野心、新光電気「TSMCにはない魅力を」

中国AI企業が他社製AIを「ただ乗り蒸留」か 米社が主張、安全保障リスクも

高1数学で理解できる機械学習、回帰直線のグラフ表示へ

AIで人月商売はもう終わり、人売りベンダーの技術者は速やかに逃げ出せ

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

中国AI企業が他社製AIを「ただ乗り蒸留」か米社が主張、安全保障リスクも