AI Navigate

ActionPlan: フレームレベルのアクション計画による未来志向のストリーミングモーション合成

arXiv cs.CV / 2026/3/17

📰 ニュースModels & Research

要点

  • ActionPlan は、デノイジング時に密な意味的アンカーとして機能するフレームレベルのテキスト潜在変数を用いた、フレームごとのアクション計画を導入し、構造化されたモーション生成を実現します。
  • このフレームワークは、履歴条件付き・未来志向の拡散過程と潜在変数固有のステップを用いることでリアルタイムのストリーミングを実現するとともに、単一のモデル内で高品質なオフラインモーション生成をサポートします。
  • 追加のモデルを必要とせず、ゼロショットのモーション編集と中間補間を可能にし、事後の調整や補間の柔軟性を高めます。
  • 実証的な結果として、リアルタイムのストリーミングは従来の最良手法より5.25倍高速で動作し、モーション品質(FID)も18%向上します。

Abstract

ActionPlanを紹介します。ActionPlanは、リアルタイムのストリーミングと高品質なオフライン生成を1つのモデル内で橋渡しする、統一的なモーションディフュージョンフレームワークです。コアアイデアは、フレームごとのアクションプランを導入することです。モデルはフレームレベルのテキスト潜在表現を予測し、それらをノイズ除去全体を通じて密な意味的アンカーとして機能させ、意味的情報とモーションの手掛かりを組み合わせて全モーションシーケンスをノイズ除去します。この構造化されたワークフローを支援するために、潜在ごとに特化した拡散ステップを設計し、各モーション潜在を独立してノイズ除去し、推論時に柔軟な順序でサンプリングできるようにします。結果として、ActionPlanはリアルタイムストリーミングの履歴条件付き・未来認識モードで動作できる一方、オフライン生成も高品質でサポートします。同じ機構により、追加のモデルなしでゼロショットのモーション編集やin-betweening(中間補間)も可能になります。実験により、リアルタイムストリーミングは従来の最良法より5.25倍速く、FIDの観点でモーション品質を18%向上させることが示されています。