要旨: マルチモーダルLLMは、ロボティクスから仮想世界に至るまで、3D環境における自律エージェントの知覚バックボーンとしてますます広く導入されている。これらのアプリケーションでは、エージェントが急速な状態変化を知覚し、行動を正しい主体(エンティティ)に帰属させ、さらに一人称視点から同時進行する複数エージェントの振る舞いを推論することが求められる。しかし、既存のベンチマークはこれらの能力を十分に評価できていない。私たちは、動画理解を通じてエージェント中心の知覚と推論を評価するための枠組みであるGameplayQAを提案する。具体的には、マルチプレイヤーの3Dゲームプレイ動画に対して1.22ラベル/秒で密に注釈を付ける。これにより、三項(Self、Other Agents、World)からなる体系に基づいて構造化された状態・行動・出来事の、タイム同期された同時並行のキャプションを付与する。これはマルチエージェント環境に対する自然な分解である。これらの注釈から、認知的複雑性の3段階に整理した2.4K件の診断用QAペアを洗練させ、さらに、モデルがどこで幻覚(ハルシネーション)を起こすのかをきめ細かく分析できる、構造化されたディストラクタ(注意をそらす要素)分類法を伴わせた。最先端のMLLMを評価した結果、人間の性能との間には大きなギャップがあることが判明し、失敗の典型例として、時間的およびクロス動画のグラウンディング、エージェント役割の帰属、ならびにゲームにおける決定の密度への対処が挙げられる。私たちは、GameplayQAが、身体性(embodied)AI、エージェント指向の知覚、そしてワールドモデリングの交差領域における今後の研究を後押しすることを期待している。
GameplayQA: 3D仮想エージェントの意思決定密度の高いPOV同期マルチビデオ理解を評価するベンチマークフレームワーク
arXiv cs.CL / 2026/3/26
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文では、複数のエージェントが登場する意思決定密度の高い一人称視点(POV)の3Dゲームプレイにおいて、マルチモーダル/エージェント型モデルがどのように知覚し推論するかを評価するためのベンチマークフレームワークであるGameplayQAを提案する。
- 自己(Self)、他者エージェント(Other Agents)、世界(World)の三項分解に基づき、1.22ラベル/秒の密な時系列同期注釈を提供し、認知複雑性の3つのレベルにまたがって2.4K件の診断用QAペアを導出する。
- ベンチマークには、特定の幻覚モードを特定するためのダイストラクタ分類(タクソノミー)が含まれており、先行ベンチマークよりもきめ細かい誤り分析を可能にする。
- 最先端のMLLMを用いた実験では、特に時間的・ビデオ間のグラウンディング、エージェントの役割帰属、「高い“意思決定密度”」への対処において、人間との間に大きな性能差があることが示される。