MMTalker:マルチモーダル特徴融合によるマルチ解像度3Dトーキングヘッド合成

arXiv cs.CV / 2026/4/6

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • MMTalkerは、1次元の音声信号を時間変化する3次元の顔の動きへ写像する、新しい音声駆動型の3Dトーキングヘッド合成手法であり、リップシンクと表情の現実感に関する課題に対処します。
  • この手法では、UVからメッシュへの対応関係を備えたメッシュパラメータ化と、微細な顔のディテールをより適切に捉えるための微分可能な非一様サンプリングを用いて、連続的な3D顔表現を構築します。
  • 運動特徴は、残差グラフ畳み込みネットワークと、マルチモーダル特徴融合のためのデュアル・クロスアテンション機構を組み合わせて抽出します(階層的な音声特徴に加え、時空間的な幾何学メッシュ特徴を含む)。
  • 軽量な回帰モジュールが、その後、正準UV空間でサンプリングされた点とエンコードされた運動特徴を共同で処理することで、頂点ごとの幾何学的変位を予測します。
  • 実験では、先行研究に比べて顕著な改善が報告されており、とりわけ唇と目の動きにおける同期精度が向上しています。

Abstract

音声駆動の三次元(3D)顔アニメーション合成は、1次元(1D)の音声信号から、時間とともに変化する3D顔の運動信号への写像を構築することを目的としています。現行の手法では、主にこの異モーダル写像が高度に不適切(ill-posed)であることに起因して、口元の同期精度の維持や、現実的な顔の表情の生成に依然として課題があります。本論文では、多解像度表現とマルチモーダル特徴融合による新しい3Dオーディオ駆動顔アニメーション合成手法MMTalkerを提案し、3D顔の運動における豊かな詳細を正確に再構成できることを示します。 まず、メッシュのパラメータ化と非一様な微分可能サンプリングによって、詳細を備えた3D顔の連続表現を実現します。メッシュのパラメータ化技術はUV平面と3D顔メッシュの対応関係を確立し、連続学習のための教師(ground truth)を提供するために用いられます。微分可能な非一様サンプリングは、各三角形の面において学習可能なサンプリング確率を設定することで、精密な顔の詳細の獲得を可能にします。次に、残差グラフ畳み込みネットワークとデュアルクロスアテンション機構を用いて、複数の入力モダリティから識別的な顔運動特徴を抽出します。提案するこのマルチモーダル融合戦略は、音声の階層的特徴と、顔メッシュの明示的な時空間幾何学的特徴を十分に活用します。最後に、軽量な回帰ネットワークが、正準UV空間でサンプリングされた点と符号化された顔運動特徴を共同で処理することにより、合成された口を動かす顔の頂点ごとの幾何学的変位を予測します。 総合的な実験により、最先端の手法に比べて大幅な改善が達成されていることが示され、特に口と目の動きの同期精度において顕著です。