URoPE:幾何空間をまたぐユニバーサル相対位置埋め込み
arXiv cs.CV / 2026/4/22
📰 ニュースDeveloper Stack & InfrastructureModels & Research
要点
- 本論文は、Rotary Position Embedding(RoPE)を拡張して、固定された1次元や規則的な2D/3Dグリッドにとどまらず、カメラ視点間・次元間の幾何推論に対応できるユニバーサル相対位置埋め込み「URoPE」を提案します。
- URoPEは、キー/バリューとなる画像パッチごとに深度アンカーを用いてカメラレイ上で3D点をサンプリングし、それらをクエリ画像平面へ射影した後、得られたピクセル座標に標準的な2D RoPEを適用します。
- URoPEはパラメータ不要で内在パラメータ(intrinsics)を考慮し、さらに大域座標系の選択に対して不変であることを目指しています。
- 既存のRoPE最適化アテンションカーネルと完全に互換であるよう設計されており、プラグイン型の位置エンコーディングとして評価されています。
- 実験では、2D-2D、2D-3D、時間的シナリオにわたる複数タスク(新規視点合成、3D物体検出、物体追跡、深度推定)で一貫して性能が向上すると報告されています。




