X-Cache:少ステップ自己回帰型ワールドモデル推論におけるクロスチャンク・ブロックキャッシング

arXiv cs.CV / 2026/4/23

📰 ニュースDeveloper Stack & InfrastructureModels & Research

要点

  • X-Cacheは、インタラクティブな導入を妨げる推論コストの高さに対処するための、少ステップ自己回帰型ワールドモデル向け推論高速化手法であり、トレーニング不要です。
  • 従来の拡散キャッシュ(脱ノイズ手順間での再利用)は少ステップ蒸留モデルでは再利用する余地がないため、X-Cacheは「脱ノイズ手順」ではなく「連続する生成チャンク」間で残差をキャッシュします。
  • 構造とアクションを考慮したブロック入力の指紋に対してデュアルメトリクスのゲーティングを行い、ブロックごとに再計算するかキャッシュ残差を再利用するかを個別に判断します。
  • 永続的な自己回帰KVキャッシュへの誤差の混入を防ぐため、KV更新チャンク(クリーンなキーとバリューを書き込む順方向計算)を検出し、そこでは無条件にフル計算を強制して誤差伝播を遮断します。
  • X-world(本番向けのマルチカメラ・アクション条件付きドライビング・ワールドモデルで、多ブロック因果DiTとローリングKVキャッシュを使用)に適用した結果、最小限の劣化を維持しつつ、71%のブロックスキップ率と2.6×のウォールクロックスピードアップが報告されています。

要旨: リアルタイムのワールドシミュレーションは、自動運転システムの大規模評価およびオンライン強化学習のための主要な基盤インフラになりつつある。自己回帰型ビデオ拡散に基づく近年の走行ワールドモデルは、高忠実度で制御可能なマルチカメラ生成を達成しているが、推論コストがインタラクティブな展開のボトルネックとなっている。しかし、既存の拡散キャッシュ手法は、複数のノイズ除去ステップを伴うオフライン動画生成向けに設計されており、このシナリオには転用できない。少数ステップに蒸留したモデルでは、これらの手法が再利用できるステップ間の冗長性が残っていない。また、シーケンス単位の並列化手法は、クローズドループのインタラクティブ生成が提供しない将来条件付けを必要とする。そこで本論文では、X-Cache を提案する。これは学習不要の加速手法であり、異なる軸でキャッシュを行う。すなわち、ノイズ除去ステップ間ではなく、連続する生成チャンク間でキャッシュする。X-Cache は、チャンクをまたいで永続するブロックごとの残差キャッシュを保持し、構造およびアクションを意識したブロック入力フィンガープリントに対してデュアル・メトリクスのゲーティング機構を適用することで、各ブロックがキャッシュされた残差を再利用するか再計算するかを独立に判断する。自己回帰型 KV キャッシュへの近似誤差の恒久的な汚染を防ぐために、X-Cache は、KV 更新チャンク(永続キャッシュにクリーンなキーとバリューを書き込む順伝播)を特定し、これらのチャンクでは無条件に完全計算を強制することで、誤差の伝播を遮断する。われわれは、少数ステップのノイズ除去とローリング KV キャッシュを備えたマルチブロック因果 DiT 上で構築された、生産環境向けマルチカメラ・アクション条件付け走行ワールドモデルである X-world に X-Cache を実装する。X-Cache は、最低限の劣化を維持しつつ、71% のブロックスキップ率を達成し、ウォールクロック時間を 2.6 倍高速化する。