多エージェント相互作用シーケンスモデリングのための拡散フォーシング

arXiv cs.RO / 2026/3/27

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、多人数（マルチエージェント）間の相互作用を長い時間軸・強い依存関係・グループサイズ変動という条件下で生成する課題に取り組む手法を提案しています。
提案モデルMAGNetは、複数人のモーション生成を扱うための統一的な自己回帰型拡散フレームワークで、柔軟な条件付けとサンプリングにより多様な相互作用タスク（2者・3者以上、inpainting、予測、エージェント生成など）を単一モデルで実行できます。
自己回帰的なノイズ除去過程でエージェント間の結合（inter-agent coupling）を明示的にモデル化することで、密に同期する活動と、より緩やかな社会的相互作用の双方で一貫した協調を実現します。
動画で示されるように、数百モーションステップに及ぶ超長系列の生成が可能であり、2者ベンチマークでは専用手法と同等性能、さらに多者シナリオへ自然に拡張できると報告されています。

要旨: 複数人の相互作用を理解し生成することは、ロボティクスおよびソーシャルコンピューティングに幅広い影響を持つ、基本的な課題である。人は自然に集団で協調するが、そのような相互作用のモデリングは、長い時間的地平、強いエージェント間の依存関係、そして変動する集団サイズのために難しい。既存のモーション生成手法は主にタスク固有であり、柔軟なマルチエージェント生成へは一般化しない。そこで我々は、MAGNet（Multi-Agent Generative Network）を提案する。これは、柔軟な条件付けとサンプリングによって幅広い相互作用タスクを支援する、マルチエージェント運動生成のための統一された自己回帰型拡散フレームワークである。MAGNetは、単独対（dyadic）および多者（polyadic）の予測、パートナーのインペインティング（補完）、パートナーの予測、ならびにエージェント主導（agentic）生成を、単一のモデルの中で同時に実行でき、さらに数百の運動ステップに及ぶ非常に長い系列を、自己回帰的に生成することが可能である。さらに我々は、自己回帰的なノイズ除去においてエージェント間のカップリングを明示的にモデル化し、その結果、エージェント間で首尾一貫した協調を実現する。これにより、MAGNetは、密に同期された活動（例：ダンス、ボクシング）と、ゆるく構造化された社会的相互作用の両方を捉える。我々の手法は、単独対のベンチマークにおいて専門手法と同等の性能を達成しつつ、3人以上の相互作用を含む多者シナリオへも自然に拡張できる。生成された相互作用の時間的ダイナミクスと空間的な協調は補足動画で最もよく理解できるので、ぜひご覧いただきたい。プロジェクトページ: https://von31.github.io/MAGNet/