MMTalker:マルチモーダル特徴融合によるマルチ解像度3Dトーキングヘッド合成
arXiv cs.CV / 2026/4/6
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- MMTalkerは、1次元の音声信号を時間変化する3次元の顔の動きへ写像する、新しい音声駆動型の3Dトーキングヘッド合成手法であり、リップシンクと表情の現実感に関する課題に対処します。
- この手法では、UVからメッシュへの対応関係を備えたメッシュパラメータ化と、微細な顔のディテールをより適切に捉えるための微分可能な非一様サンプリングを用いて、連続的な3D顔表現を構築します。
- 運動特徴は、残差グラフ畳み込みネットワークと、マルチモーダル特徴融合のためのデュアル・クロスアテンション機構を組み合わせて抽出します(階層的な音声特徴に加え、時空間的な幾何学メッシュ特徴を含む)。
- 軽量な回帰モジュールが、その後、正準UV空間でサンプリングされた点とエンコードされた運動特徴を共同で処理することで、頂点ごとの幾何学的変位を予測します。
- 実験では、先行研究に比べて顕著な改善が報告されており、とりわけ唇と目の動きにおける同期精度が向上しています。



