テキスト駆動型3Dハンド動作生成のための教師・生徒拡散モデル

arXiv cs.CV / 2026/3/26

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、推論時に3Dメッシュを不要とし、自然言語テキストから現実的な3Dハンド動作を生成する教師・生徒型の拡散フレームワーク「TSHaMo」を提案する。
  • 教師はMANOパラメータなどの構造化された補助信号を用いて学習を導く一方で、最終的には生徒がテキストのみの入力で動作生成を学習する。
  • 共同学習(co-training)戦略により、生徒は教師の中間予測から恩恵を受けられ、動作の品質と多様性の双方の向上を目指す。
  • GRABおよびH2Oデータセットで、2種類の拡散バックボーンを用いた実験により、先行手法に対して一貫した改善が示され、アブレーションにより異なる補助入力に対する頑健性が実証される。
  • 本手法はモデル非依存かつ柔軟であり、テキストのみでのデプロイを維持しながら、学習時のさまざまな補助信号を統合できることが述べられている。