PanoSAM2:360ビデオ対象物セグメンテーションのための、SAM2に対する軽量な歪み・メモリ配慮型アダプテーション
arXiv cs.CV / 2026/4/10
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文では、SAM2のプロンプト可能なVOSとしての使い勝手を維持しつつ、360ビデオ対象物セグメンテーション(360VOS)設定に適応する軽量フレームワークPanoSAM2を提案する。
- 360特有の課題である射影歪みと左右方向の意味的一貫性の欠如に対して、シームに一貫した受容野を備えるPano-Aware Decoderと、0/360境界をまたいだ反復的な歪みの精緻化(distortion refinement)によって対応する。
- 射影の伸張アーティファクト下でもマスクの信頼性を高めるため、歪みガイド付きマスク損失(Distortion-Guided Mask Loss)を導入し、歪みの大きさがより大きい領域および境界に重みを付与する。
- 360ビデオにおいてSAM2のメモリが持つ対象物情報が疎であることを緩和するため、Long-Short Memory Moduleを追加し、コンパクトな長期の対象ポインタを維持することで、短期メモリの再生成と整合をより良く行い、時間的な一貫性を改善する。
- 実験では、SAM2に対して大幅な性能向上が報告されており、360VOTSで+5.6、PanoVOSで+6.7となることから、提案する歪み・メモリ配慮型のアダプテーションが有効であることが示される。


