長期モーション埋め込みの学習による効率的な運動学(キネマティクス)生成

Apple Machine Learning Journal / 2026/4/24

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • この論文は、長期モーション埋め込みを学習することで、従来の動画合成よりも効率的にシーンドライナミクスをモデル化する手法を提案しています。
  • 将来の動画を丸ごと生成する代わりに、トラッカーモデルから得られた大規模な軌跡を学習して作る埋め込み空間上で直接処理します。
  • テキストプロンプトや空間的な合図(“pokes”)で指定した目標を満たしながら、長くリアルな動きを効率よく生成できます。
  • 既存の動画モデルが抱える重要な課題、つまりフルフレーム生成による複数の未来候補の探索が計算的に非常に重い点に焦点を当てています。
  • 本研究は、視覚インテリジェンスのための、より実用的で制御可能な運動予測・生成に向けた一歩として位置づけられています。
理解して予測することは視覚的インテリジェンスの基本的な要素です。現代の動画モデルはシーンのダイナミクスをよく理解できる一方で、完全な動画合成によって複数の可能な未来を探ることは、依然として非常に非効率です。私たちは、トラッカーモデルから得られる大規模な軌跡にもとづいて学習した長期モーション埋め込みを直接操作することで、シーンドライナミクスを桁違いに効率よくモデル化します。これにより、テキストプロンプトや空間的な“pokes”によって指定された目標を満たしながら、長く現実的な動きを効率よく生成できるようになります。これを実現するために…

この記事の続きは原文サイトでお読みいただけます。

原文を読む →