インタラクティブ・ワールドモデルのための統一アクション生成フレームワークによるベンチマーク

arXiv cs.CV / 2026/5/6

📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research

要点

  • 本論文は、距離知覚や記憶などの身体的な相互作用能力を対象に、インタラクティブ・ワールドモデルを学習・評価するための新しいベンチマーク「iWorld-Bench」を提案しています。
  • 330k本の動画クリップからなる大規模データセットを構築し、視点・天候・シーンの多様性を含む2.1k本の高品質サンプルを厳選しています。
  • インタラクションのモダリティが異なる既存のワールドモデルを踏まえ、著者らは評価を標準化するための「アクション生成フレームワーク」を提案し、6種類のタスクを定義しています。
  • ベンチマークは4.9k本のテストサンプルを生成し、視覚生成、軌道追従、記憶の各性能をまとめて評価します。
  • 14の代表的なワールドモデルを実験で評価し、主要な限界を明らかにするとともに、リーダーボードをiWorld-Bench.comで公開しています。