ExoActor:外部視点によるビデオ生成を用いた、一般化可能なインタラクティブなヒューマノイド制御

arXiv cs.RO / 2026/5/1

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • ExoActorは、空間状況・時間的ダイナミクス・ロボットの行動・タスク意図を大規模に同時に扱うことで、インタラクションに富んだ流暢なヒューマノイド制御を実現する課題に取り組みます。
  • 本フレームワークは三人称視点のビデオ生成を統一的なインターフェースとして用い、タスク指示とシーン文脈に基づいて実行プロセスをもっともらしく合成します。
  • 合成された映像は、人間のモーション推定と汎用モーションコントローラによる実行パイプラインを通じて、タスク条件付きの行動列へ変換されます。
  • 研究ではExoActorをエンドツーエンドで実装し、追加の現実データ収集なしで新しいシナリオへの汎化を示したと報告されています。
  • さらに、現在の実装の限界と今後の研究方針を述べ、生成モデルを一般目的のヒューマノイド知能へつなげる新たな方向性を示唆しています。

要旨: 人型制御システムは近年大きく進展しているものの、ロボット、その周囲の環境、そしてタスクに関連する対象物のあいだで生じる、相互作用に富んだ流暢な行動をモデリングすることは、依然として基本的な課題である。この困難さは、大規模なスケールにおいて、空間的な文脈、時間的ダイナミクス、ロボットの行動、そしてタスクの意図を同時に捉える必要がある一方で、従来の監督学習ではそれに適合しにくいために生じる。そこで本研究では、この問題に対処するために、大規模な動画生成モデルの一般化能力を活用する新しい枠組みExoActorを提案する。ExoActorの主要な着想は、相互作用ダイナミクスをモデリングするための統一的なインターフェースとして、三人称視点の動画生成を用いる点にある。タスク指示とシーン文脈が与えられると、ExoActorは、ロボット、環境、対象物のあいだの協調的な相互作用を暗黙に符号化した、もっともらしい実行プロセスを合成する。得られた動画出力は、その後、人間の動作を推定し、それを汎用のモーションコントローラで実行するパイプラインを通じて、実行可能な人型の行動へと変換され、タスク条件付けされた行動系列が得られる。提案した枠組みを検証するため、これをエンドツーエンドのシステムとして実装し、追加の現実世界データ収集を行うことなく、新しいシナリオへの一般化が可能であることを示す。さらに本稿では、現在の実装の限界について論じ、将来の研究に向けた有望な方向性を概説しつつ、ExoActorが相互作用に富んだ人型行動をモデリングするためのスケーラブルなアプローチを提供し、生成モデルによって汎用的な人型知能を前進させる新たな道を切り開く可能性があることを示す。