GameWorld:マルチモーダル・ゲームエージェントの標準化された検証可能な評価に向けて

arXiv cs.CV / 2026/4/10

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、ブラウザ環境で汎用(ジェネラリスト)なゲームエージェントとして振る舞うマルチモーダル(MLLM)エージェントの、標準化された検証可能な評価を目的とした新しいベンチマーク「GameWorld」を提案する。
  • 低遅延、疎なフィードバック、取り返しのつかない誤り、一貫した行動インターフェースや検証手法が欠如しているといった、既存の評価の制限に取り組む。
  • GameWorldは34のゲームと170のタスクを扱い、再現可能な比較を可能にするため、状態を検証可能なアウトカム(結果)ベースの指標を用いてエージェントの性能を評価する。
  • ベンチマークでは、2種類のエージェント・インターフェースを検討する。すなわち、キーボード/マウス操作を出力する「コンピュータ利用エージェント」と、決定的なSemantic Action Parsingによりセマンティック・アクション空間へ写像する「マルチモーダルエージェント」である。
  • 18のモデル×インターフェースの組み合わせにわたる実験の結果、トップのエージェントであっても人間レベルの性能にはなお大きな隔たりがあることが示される。さらに追加テストにより、リアルタイムな相互作用、文脈(コンテキスト)に対するメモリの感度、行動妥当性といった課題が浮き彫りになる。

Abstract

現実世界での相互作用に向けた身体性を備えた汎用主義者を目指して、マルチモーダル大規模言語モデル(MLLM)エージェントは依然として、困難なレイテンシ、疎なフィードバック、そして取り返しのつかない誤りに悩まされています。ビデオゲームは、豊かな視覚観察とクローズドループの相互作用を備えた理想的な検証基盤であり、細粒度の知覚、長期の計画、そして正確な制御を要求します。しかしながら、これらの能力を体系的に評価することは、現在、異種のアクション・インターフェースとヒューリスティック(経験則)による検証のために妨げられています。そこで本研究では、ブラウザ環境における汎用ゲームエージェントとしてのMLLMを、標準化され検証可能な形で評価するためのベンチマーク「GameWorld」を導入します。検討するエージェント・インターフェースは2種類です。(i)キーボードとマウスの制御を直接発話するコンピュータ利用エージェント、(ii)決定論的なSemantic Action Parsing(意味的アクション解析)により、セマンティックなアクション空間で行動する汎用マルチモーダルエージェントです。GameWorldには34の多様なゲームと170のタスクが含まれており、各タスクには結果に基づく評価のための状態検証可能な指標がペアで用意されています。18のモデル—インターフェース・ペアにわたる結果は、最も高性能なエージェントでさえ、ビデオゲームにおいて人間の能力には程遠いことを示しています。全ベンチマークの反復的な再実行により、大規模にわたって頑健性(ロバスト性)が確認されます。一方で、リアルタイム相互作用、文脈メモリへの感度、アクションの妥当性に関する追加研究により、ゲームエージェントが直面するさらなる課題が明らかになります。標準化され、検証可能で、再現可能な評価フレームワークを提供することで、GameWorldはマルチモーダルなゲームエージェント研究、そしてその先へと発展させるための堅固な基盤を築きます。プロジェクトページは https://gameworld-bench.github.io です。