ExoActor：外部視点によるビデオ生成を用いた、一般化可能なインタラクティブなヒューマノイド制御

arXiv cs.RO / 2026/5/1

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

ExoActorは、空間状況・時間的ダイナミクス・ロボットの行動・タスク意図を大規模に同時に扱うことで、インタラクションに富んだ流暢なヒューマノイド制御を実現する課題に取り組みます。
本フレームワークは三人称視点のビデオ生成を統一的なインターフェースとして用い、タスク指示とシーン文脈に基づいて実行プロセスをもっともらしく合成します。
合成された映像は、人間のモーション推定と汎用モーションコントローラによる実行パイプラインを通じて、タスク条件付きの行動列へ変換されます。
研究ではExoActorをエンドツーエンドで実装し、追加の現実データ収集なしで新しいシナリオへの汎化を示したと報告されています。
さらに、現在の実装の限界と今後の研究方針を述べ、生成モデルを一般目的のヒューマノイド知能へつなげる新たな方向性を示唆しています。

要旨: 人型制御システムは近年大きく進展しているものの、ロボット、その周囲の環境、そしてタスクに関連する対象物のあいだで生じる、相互作用に富んだ流暢な行動をモデリングすることは、依然として基本的な課題である。この困難さは、大規模なスケールにおいて、空間的な文脈、時間的ダイナミクス、ロボットの行動、そしてタスクの意図を同時に捉える必要がある一方で、従来の監督学習ではそれに適合しにくいために生じる。そこで本研究では、この問題に対処するために、大規模な動画生成モデルの一般化能力を活用する新しい枠組みExoActorを提案する。ExoActorの主要な着想は、相互作用ダイナミクスをモデリングするための統一的なインターフェースとして、三人称視点の動画生成を用いる点にある。タスク指示とシーン文脈が与えられると、ExoActorは、ロボット、環境、対象物のあいだの協調的な相互作用を暗黙に符号化した、もっともらしい実行プロセスを合成する。得られた動画出力は、その後、人間の動作を推定し、それを汎用のモーションコントローラで実行するパイプラインを通じて、実行可能な人型の行動へと変換され、タスク条件付けされた行動系列が得られる。提案した枠組みを検証するため、これをエンドツーエンドのシステムとして実装し、追加の現実世界データ収集を行うことなく、新しいシナリオへの一般化が可能であることを示す。さらに本稿では、現在の実装の限界について論じ、将来の研究に向けた有望な方向性を概説しつつ、ExoActorが相互作用に富んだ人型行動をモデリングするためのスケーラブルなアプローチを提供し、生成モデルによって汎用的な人型知能を前進させる新たな道を切り開く可能性があることを示す。

AIの次に来る技術、投資データで浮き彫りにランキング上位を徹底解説

日経XTECH

自律的なコーディングエージェントが失敗し続ける理由――そして本当に効く対策

Dev.to

ChatGPTの「画像生成」、どう進化？　開発者に聞く　“文字化け解消”の秘訣

ITmedia AI+

なぜエンタープライズのAIパイロットは失敗するのか

Dev.to

誰も欲しがらないのに、私は毎日使っているPDF機能

Dev.to

ExoActor：外部視点によるビデオ生成を用いた、一般化可能なインタラクティブなヒューマノイド制御

要点

関連記事

AIの次に来る技術、投資データで浮き彫りにランキング上位を徹底解説

自律的なコーディングエージェントが失敗し続ける理由――そして本当に効く対策

ChatGPTの「画像生成」、どう進化？　開発者に聞く　“文字化け解消”の秘訣

なぜエンタープライズのAIパイロットは失敗するのか

誰も欲しがらないのに、私は毎日使っているPDF機能

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

AIの次に来る技術、投資データで浮き彫りに ランキング上位を徹底解説

自律的なコーディングエージェントが失敗し続ける理由――そして本当に効く対策

ChatGPTの「画像生成」、どう進化？ 開発者に聞く “文字化け解消”の秘訣

なぜエンタープライズのAIパイロットは失敗するのか

誰も欲しがらないのに、私は毎日使っているPDF機能

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

AIの次に来る技術、投資データで浮き彫りにランキング上位を徹底解説

ChatGPTの「画像生成」、どう進化？　開発者に聞く　“文字化け解消”の秘訣