URoPE:幾何空間をまたぐユニバーサル相対位置埋め込み

arXiv cs.CV / 2026/4/22

📰 ニュースDeveloper Stack & InfrastructureModels & Research

要点

  • 本論文は、Rotary Position Embedding(RoPE)を拡張して、固定された1次元や規則的な2D/3Dグリッドにとどまらず、カメラ視点間・次元間の幾何推論に対応できるユニバーサル相対位置埋め込み「URoPE」を提案します。
  • URoPEは、キー/バリューとなる画像パッチごとに深度アンカーを用いてカメラレイ上で3D点をサンプリングし、それらをクエリ画像平面へ射影した後、得られたピクセル座標に標準的な2D RoPEを適用します。
  • URoPEはパラメータ不要で内在パラメータ(intrinsics)を考慮し、さらに大域座標系の選択に対して不変であることを目指しています。
  • 既存のRoPE最適化アテンションカーネルと完全に互換であるよう設計されており、プラグイン型の位置エンコーディングとして評価されています。
  • 実験では、2D-2D、2D-3D、時間的シナリオにわたる複数タスク(新規視点合成、3D物体検出、物体追跡、深度推定)で一貫して性能が向上すると報告されています。

Abstract

相対位置エンベディングは、Transformerにおいて位置情報を符号化するための標準的な仕組みになっています。しかし、既存の定式化は一般に、固定された幾何空間、すなわち1次元の系列、または規則的な2次元/3次元グリッドに限定されがちです。そのため、カメラ視点間、あるいは2次元空間と3次元空間の間で幾何的推論を必要とする多くのコンピュータビジョンタスクへの適用が制限されます。この制約に対処するために、本論文では、視点間または次元間の幾何空間にまたがって用いるための、Rotary Position Embedding(RoPE)のユニバーサルな拡張であるURoPEを提案します。各キ−/バリューの画像パッチに対して、URoPEは対応するカメラ光線に沿って、あらかじめ定めた深さアンカー上で3D点をサンプリングし、それらをクエリ画像平面へ投影します。次に、通常の2D RoPEを投影されたピクセル座標に対して適用できます。URoPEは、パラメータ不要で、内在パラメータ(intrinsics)を考慮した相対位置エンベディングであり、グローバルな座標系の選択に対して不変です。また、既存のRoPE最適化アテンション・カーネルと完全に互換です。多様なタスクにわたって、URoPEをトランスフォーマー・アーキテクチャに対するプラグイン型の位置エンコーディングとして評価します。対象には、新規視点合成、3D物体検出、物体追跡、深度推定が含まれ、2D-2D、2D-3D、および時間的(temporal)シナリオをカバーします。実験の結果、URoPEはすべてのタスクにおいて、トランスフォーマーベースのモデルの性能を一貫して向上させ、幾何的推論に対する有効性と汎用性を示します。本プロジェクトのWebサイトは次のとおりです:https://urope-pe.github.io/。