CoMaTrack:視覚言語行動モデルによる競合型マルチエージェント・ゲーム理論追跡

arXiv cs.AI / 2026/3/25

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • CoMaTrackは、動的な敵対環境における干渉への頑健性と適応的な計画を改善することを目的とした、Embodied Visual Tracking(EVT)向けの、競合型・ゲーム理論に基づくマルチエージェント強化学習フレームワークとして提案される。
  • 本研究では、CoMaTrack-Benchも提示される。これは、トラッカー対相手(オポーネント)のゲームシナリオを扱う、競合型EVTの最初のベンチマークであり、多様な環境と言語指示を含め、能動的な敵対的相互作用のもとで頑健性評価を標準化することを狙っている。
  • 実験では、既存のEVTベンチマークと新しい競合型ベンチマークの両方において最先端の性能が報告されており、従来の単一エージェント模倣学習アプローチよりも高い汎化力が示される。
  • 重要な結果として、CoMaTrackで学習した3B規模の視覚言語行動モデルが、EVT-Benchにおいて7B規模を用いる先行の単一エージェント模倣学習手法を上回ると主張される。報告されているスコアは、92.1%(STT)、74.2%(DT)、57.5%(AT)である。
  • ベンチマークコードは、提示されたGitHubリポジトリのリンク経由で公開予定であり、他の研究者がCoMaTrack-Benchに対して再現・評価できるようになる。