AI Navigate

SAP: 4Kパノラマを任意にセグメント化

arXiv cs.CV / 2026/3/16

📰 ニュースModels & Research

要点

  • SAPは、4Kパノラマのインスタンスセグメンテーションのために設計された新しい基盤モデルで、360°パノラマにおける性能ギャップに対処します。
  • パノラマのセグメンテーションを、固定軌道のパースペクティブ動画セグメンテーションへと再定式化し、球面をたどる経路に沿ってパノラマを重なり合うパースペクティブパッチに分解し、ネイティブな4K解像度と滑らかな視点遷移を保ちます。
  • InfiniGenエンジンを用いて、183,440枚の4Kパノラマ画像とインスタンスセグメンテーションラベルを合成することで、大規模な監督付き学習データを供給します。
  • SAPは現実世界の360°画像へと一般化し、4Kパノラマのベンチマークにおいて、サイズの異なる通常のSAM2に対して、ゼロショット mIoU を+17.2ポイント向上させました。

Abstract

プロンプト対応のインスタンス分割は、身体化されたシステムやARシステムで広く採用されているが、視点画像で学習された基盤モデルの性能は360度パノラマではしばしば低下する。 本論文では Segment Any 4K Panorama (SAP) を紹介する。これは4K高解像度のパノラマインスタンスレベル分割の基盤モデルである。 パノラマ分割を固定軌道の視点ビデオ分割として再定式化し、連続的な球面走査に沿ってサンプリングされた重複する視点パッチにパノラマを分解する。このメモリ整合化された再定式化は、ネイティブの4K解像度を保持しつつ、安定したクロスビュー伝搬に必要な滑らかな視点遷移を回復する。 大規模な監督信号を可能にするため、InfiniGenエンジンを用いて、インスタンス分割ラベルを付与した183,440枚の4K解像度パノラマ画像を合成する。 この軌道整列パラダイムの下で訓練されたSAPは、実世界の360度画像に対して効果的に一般化し、実世界の4Kパノラマベンチマークにおいて、異なるサイズの従来の SAM2 に対して+17.2のゼロショットmIoUの向上を達成する。