Stereo World Model: カメラ誘導型ステレオビデオ生成
arXiv cs.CV / 2026/3/19
📰 ニュースModels & Research
要点
- StereoWorld は、RGBモダリティ内でのエンドツーエンドのステレオビデオ生成のために、外観と両眼幾何を共同学習し、視差から幾何を基づけるカメラ条件付きのステレオ世界モデルである。
- カメラ認識対応の位置エンコーディングを実現する統一カメラフレーム RoPE と、エピポラル事前情報に導かれた水平行アテンションを用いる 3D 内視点アテンションを組み合わせた、ステレオ対応アテンション分解という2つの主要設計を導入する。
- ベンチマーク全体で、StereoWorld はステレオの一貫性、視差の精度、カメラ運動の忠実度を向上させ、モノラル→変換パイプラインに比べて生成速度を3倍以上に、視点の一貫性を約5%向上させる。
- ベンチマークを超え、深度推定やインペインティングを必要とせず、エンドツーエンドの両眼VRレンダリングを実現し、実測スケールの深度基盤づけを支援してエンボディドポリシー学習を促進する。
- 長尺ビデオ蒸留と互換性があり、拡張されたインタラクティブなステレオ合成をサポートする。



