Action Agent：エージェント型動画生成がフロー制約付き拡散に出会う

arXiv cs.RO / 2026/5/5

📰 ニュースDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research

原文を読む →

共有:

要点

Action Agentは、エージェント型のナビゲーション動画生成とフロー制約付き拡散を統合し、言語と画像から多様な身体（エンボディメント）のロボットナビゲーションを制御する二段階フレームワークを提案している。
第1段階では、LLMが動画拡散モデルの選択、反復的な検証とプロンプトの洗練、そしてタスク横断のメモリ蓄積を行い、物理的に妥当な一人称視点のナビゲーション動画を生成することで、成功率を単発（35%）から50タスクで86%へ引き上げた。
第2段階では、FlowDiT（フロー制約付き拡散トランスフォーマー）が、目標動画と言語指示から、行動空間のノイズ除去拡散により連続的な速度指令へ変換する仕組みを導入し、DINOv2の視覚特徴、自己運動表現のための学習済み光フロー、意味的な停止のためのCLIP埋め込みを統合している。
RECONで事前学習し、Isaac Simで収集した203のUnitree G1ヒューマノイドエピソードで微調整した結果、43Mパラメータの単一チェックポイントで、シミュレーションでは73.2%のナビ成功、実環境（未見の屋内・open-loop実行）では64.7%のタスク完了を40〜47Hzで達成した。
ヒューマノイド、ドローン、車輪型ロボットという3つのエンボディメントでの評価から、軌道の想像（imagination）と実行を切り離すことで、言語誘導ナビのための拡張可能でエンボディメント対応のパラダイムが得られることが示された。