World Reasoning Arena
arXiv cs.CV / 2026/3/30
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文では、従来の次状態予測や視覚的な忠実性にとどまらず、次の世界(next world)をシミュレーションする能力を評価するための新しいベンチマークWR-Arenaを提案する。
- WR-Arenaは、3つの能力を評価する。すなわち、多段の指示追従および反実仮想ロールアウトにおける行動シミュレーションの忠実性、長期にわたる予測(フォーキャスティング)に基づく、物理的にもっともらしいシミュレーションの継続、そして、目標指向で代替的な未来を比較するためのシミュレーティブな推論/計画である。
- タスクの分類法(タクソノミー)と、厳選されたデータセットを提供し、単一ターンおよび純粋に知覚のみを対象とする評価から、よりインタラクティブでオープンエンドなシナリオへと評価を前進させる。
- 最先端のワールドモデルで実験を行った結果、人間レベルの仮想的推論に比べて大きな性能ギャップがあることが明らかになり、WR-Arenaを診断ツールであると同時に開発の指針として位置づける。
- 本プロジェクトは、再現可能な評価と今後の研究の進展を支えるため、GitHubを通じてコードを公開する。



