PanoSAMic：SAMの特徴エンコーディングとデュアルビュー融合によるパノラマ画像セグメンテーション

arXiv cs.CV / 2026/4/27

💬 オピニオンDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research

共有:

要点

この論文は、既存の画像基盤モデルが主に透視（パースペクティブ）画像で学習されているため、球面のパノラマ画像では性能が十分最適化されていないと主張している。
PanoSAMicは、事前学習済みのSegment Anything（SAM）エンコーダを活用し、そのエンコーダを改造してマルチステージの特徴を出力することで、パノラマ画像での意味セグメンテーションを実現する。
spatio-modal fusionモジュールにより、入力の各領域ごとに利用すべきモダリティや特徴を動的に選択し、異なる入力タイプに対する頑健性を高める。
パノラマ特有の歪みやエッジの不連続といった課題に対して、デコーダは球面アテンションとデュアルビュー融合を用いる。
実験では、Stanford2D3DS（RGB、RGB-D、RGB-D-N）およびMatterport3D（RGB、RGB-D）で最先端（SotA）の結果を報告し、実装リンクも提供している。

要約: 既存の画像基盤モデルは、主に遠近画像で訓練されているため、球面画像に最適化されていません。PanoSAMicは、事前学習済みの Segment Anything（SAM）エンコーダを統合し、その広範な学習を活用するとともに、複数モダリティを用いたパノラマ画像向けのセマンティックセグメンテーションモデルへ組み込みます。私たちはSAMエンコーダを改変して多段階の特徴を出力するようにし、さらに、入力の異なる領域に対して各モダリティから関連するモダリティと最適な特徴をモデルが選択できる、独自の空間-モダリティ融合モジュールを導入します。加えて、私たちのセマンティックデコーダは、パノラマ画像にしばしば伴う歪みやエッジの不連続性を克服するために、球面注意とデュアルビュー融合を用います。PanoSAMicは、RGB、RGB-D、RGB-D-NモダリティにおいてStanford2D3DSで最先端（SotA）の結果を達成し、RGBおよびRGB-DモダリティにおいてMatterport3Dでも最先端の結果を達成します。 https://github.com/dfki-av/PanoSAMic