WorldMark：インタラクティブなビデオ世界モデルのための統一ベンチマークスイート

arXiv cs.CV / 2026/4/24

📰 ニュースSignals & Early TrendsTools & Practical UsageModels & Research

共有:

要点

本論文では、インタラクティブな画像からビデオへの世界モデルを対象に、共通のシーン／軌跡と共通の操作インターフェースを用いてモデル間の公平な比較を可能にする統一ベンチマーク「WorldMark」を提案します。
WASDスタイルの共通アクション語彙を各モデルのネイティブ制御形式へ変換するアクションマッピング層を備え、6つの主要モデル間で同等の条件で評価できるようにしています。
WorldMarkは、20〜60秒のシーケンスを対象に、1人称／3人称、フォトリアル／スタイライズの各シーン、そして難易度3段階（Easy〜Hard）を含む階層的なテストケースを500件提供します。
付随するモジュール式評価ツールキットは、視覚品質・制御の整合・世界の一貫性を測定し、データ／評価コード／出力を公開する予定であるほか、オンラインの対戦プラットフォーム「World Model Arena（warena.ai）」も立ち上げています。

要旨: Genie、YUME、HY-World、Matrix-Game などのインタラクティブなビデオ生成モデルは急速に進歩しているものの、どのモデルも個別のベンチマーク（非公開のシーンや軌道）で評価されるため、公平なモデル間比較が不可能です。既存の公開ベンチマークは、軌道誤差、美的スコア、VLM に基づく判定といった有用な指標を提供していますが、モデル間で異種の入力を扱う場合でもそれらの指標を比較可能にするために必要な標準化されたテスト条件――同一のシーン、同一のアクション列、そして統一された制御インターフェース――をどれも提供していません。私たちは、インタラクティブな Image-to-Video の世界モデルに対して、そのような共通の競技場を提供する最初のベンチマークである WorldMark を提案します。WorldMark は次を提供します:（1）統一されたアクション・マッピング層により、共通の WASD 風アクションの語彙を各モデルのネイティブな制御形式へ変換し、同一のシーンと軌道上で 6 つの主要モデルを「同じ土俵」で比較できるようにすること。（2）一人称・三人称視点、フォトリアルおよびスタイライズされたシーン、そして Easy から Hard までの 3 つの難易度ティアを含む 20〜60 秒の 500 件の評価ケースからなる階層的テストスイート。（3）Visual Quality、Control Alignment、World Consistency のためのモジュール式評価ツールキット。研究者が、標準化された入力を再利用しつつ、フィールドの発展に応じて独自の指標を組み込めるように設計されています。今後の研究を促進するため、すべてのデータ、評価コード、モデル出力を公開します。オフラインの指標に加えて、World Model Arena（warena.ai）を立ち上げます。これはオンラインのプラットフォームであり、誰でも主要な世界モデル同士を並べて対戦させ、ライブのリーダーボードを観戦できます。