ActionPlan: フレームレベルのアクション計画による未来志向のストリーミングモーション合成

arXiv cs.CV / 2026/3/17

📰 ニュースModels & Research

共有:

要点

ActionPlan は、デノイジング時に密な意味的アンカーとして機能するフレームレベルのテキスト潜在変数を用いた、フレームごとのアクション計画を導入し、構造化されたモーション生成を実現します。
このフレームワークは、履歴条件付き・未来志向の拡散過程と潜在変数固有のステップを用いることでリアルタイムのストリーミングを実現するとともに、単一のモデル内で高品質なオフラインモーション生成をサポートします。
追加のモデルを必要とせず、ゼロショットのモーション編集と中間補間を可能にし、事後の調整や補間の柔軟性を高めます。
実証的な結果として、リアルタイムのストリーミングは従来の最良手法より5.25倍高速で動作し、モーション品質（FID）も18%向上します。

Abstract

ActionPlanを紹介します。ActionPlanは、リアルタイムのストリーミングと高品質なオフライン生成を1つのモデル内で橋渡しする、統一的なモーションディフュージョンフレームワークです。コアアイデアは、フレームごとのアクションプランを導入することです。モデルはフレームレベルのテキスト潜在表現を予測し、それらをノイズ除去全体を通じて密な意味的アンカーとして機能させ、意味的情報とモーションの手掛かりを組み合わせて全モーションシーケンスをノイズ除去します。この構造化されたワークフローを支援するために、潜在ごとに特化した拡散ステップを設計し、各モーション潜在を独立してノイズ除去し、推論時に柔軟な順序でサンプリングできるようにします。結果として、ActionPlanはリアルタイムストリーミングの履歴条件付き・未来認識モードで動作できる一方、オフライン生成も高品質でサポートします。同じ機構により、追加のモデルなしでゼロショットのモーション編集やin-betweening（中間補間）も可能になります。実験により、リアルタイムストリーミングは従来の最良法より5.25倍速く、FIDの観点でモーション品質を18%向上させることが示されています。

[R] アイデンティティ・アンカーと権限階層の組み合わせが abliterated LLMs で 100% の拒否を実現 — システムプロンプトのみ、ファインチューニングなし

Reddit r/MachineLearning

[P] 自宅PC上の Vibecoded: Karpathyに触発されたAI支援の研究ループを用いて、約2700 Elo のブラウザでプレイ可能なニューラルチェスエンジンを構築

Reddit r/MachineLearning

DuckLLM 1.0 — 私の初めてのモデルを紹介します！

Reddit r/LocalLLaMA

FastFlowLMがLinux対応を追加したため、同社がサポートする全モデルをベンチマークしました。以下が結果です。

Reddit r/LocalLLaMA

高次元生存分析におけるネストしたモデルと非ネストモデルを比較する際に用いる評価指標は何ですか [D]

Reddit r/MachineLearning

ActionPlan: フレームレベルのアクション計画による未来志向のストリーミングモーション合成

要点

Abstract

関連記事

[R] アイデンティティ・アンカーと権限階層の組み合わせが abliterated LLMs で 100% の拒否を実現 — システムプロンプトのみ、ファインチューニングなし

[P] 自宅PC上の Vibecoded: Karpathyに触発されたAI支援の研究ループを用いて、約2700 Elo のブラウザでプレイ可能なニューラルチェスエンジンを構築

DuckLLM 1.0 — 私の初めてのモデルを紹介します！

FastFlowLMがLinux対応を追加したため、同社がサポートする全モデルをベンチマークしました。以下が結果です。

高次元生存分析におけるネストしたモデルと非ネストモデルを比較する際に用いる評価指標は何ですか [D]

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer