World Reasoning Arena

arXiv cs.CV / 2026/3/30

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文では、従来の次状態予測や視覚的な忠実性にとどまらず、次の世界（next world）をシミュレーションする能力を評価するための新しいベンチマークWR-Arenaを提案する。
WR-Arenaは、3つの能力を評価する。すなわち、多段の指示追従および反実仮想ロールアウトにおける行動シミュレーションの忠実性、長期にわたる予測（フォーキャスティング）に基づく、物理的にもっともらしいシミュレーションの継続、そして、目標指向で代替的な未来を比較するためのシミュレーティブな推論／計画である。
タスクの分類法（タクソノミー）と、厳選されたデータセットを提供し、単一ターンおよび純粋に知覚のみを対象とする評価から、よりインタラクティブでオープンエンドなシナリオへと評価を前進させる。
最先端のワールドモデルで実験を行った結果、人間レベルの仮想的推論に比べて大きな性能ギャップがあることが明らかになり、WR-Arenaを診断ツールであると同時に開発の指針として位置づける。
本プロジェクトは、再現可能な評価と今後の研究の進展を支えるため、GitHubを通じてコードを公開する。

Abstract

世界モデル（WM）は、現実世界の内部シミュレータとして機能し、エージェントが複雑な環境を理解し、予測し、そこに対して行動できるようにすることを目的としている。既存のWMベンチマークは、次状態予測と視覚的な忠実性に狭く焦点が当てられており、知的な振る舞いに必要とされる、より豊かなシミュレーション能力は見落とされている。そこでこのギャップを埋めるために、本研究では、次の世界シミュレーションに関する3つの基本的側面に沿ってWMを評価する包括的ベンチマークであるWR-Arenaを導入する： (i) 行動シミュレーションの忠実性。意味論的に有意な、多段階の指示を解釈し、それに従い、多様な反事実ロールアウトを生成する能力；(ii) 長期ホライゾン予測。長時間にわたる相互作用を通じても、正確で首尾一貫し、物理的にもっともらしいシミュレーションを維持する能力；(iii) シミュレイティブな推論と計画。構造化された環境および開放的な環境の双方において、代替となる未来をシミュレートし、比較し、選択することで、目標に基づく推論を支える能力。これらの能力を検証するためのタスク分類体系を構築し、それに基づく多様なデータセットを厳選することで、単発の評価や知覚に基づく評価を超える。最先端のWMに対する大規模な実験を通じて、我々の結果は、現在のモデルと人間レベルの仮想的推論との間に実質的なギャップがあることを明らかにし、WR-Arenaを、頑健な理解・予測・目的にかなった行動が可能な次世代の世界モデルを発展させるための診断ツールであり指針でもあると位置づける。コードは https://github.com/MBZUAI-IFM/WR-Arena で公開している。