GameWorld:マルチモーダル・ゲームエージェントの標準化された検証可能な評価に向けて
arXiv cs.CV / 2026/4/10
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、ブラウザ環境で汎用(ジェネラリスト)なゲームエージェントとして振る舞うマルチモーダル(MLLM)エージェントの、標準化された検証可能な評価を目的とした新しいベンチマーク「GameWorld」を提案する。
- 低遅延、疎なフィードバック、取り返しのつかない誤り、一貫した行動インターフェースや検証手法が欠如しているといった、既存の評価の制限に取り組む。
- GameWorldは34のゲームと170のタスクを扱い、再現可能な比較を可能にするため、状態を検証可能なアウトカム(結果)ベースの指標を用いてエージェントの性能を評価する。
- ベンチマークでは、2種類のエージェント・インターフェースを検討する。すなわち、キーボード/マウス操作を出力する「コンピュータ利用エージェント」と、決定的なSemantic Action Parsingによりセマンティック・アクション空間へ写像する「マルチモーダルエージェント」である。
- 18のモデル×インターフェースの組み合わせにわたる実験の結果、トップのエージェントであっても人間レベルの性能にはなお大きな隔たりがあることが示される。さらに追加テストにより、リアルタイムな相互作用、文脈(コンテキスト)に対するメモリの感度、行動妥当性といった課題が浮き彫りになる。


