概要: SAM2は自然画像に対して高品質なゼロショットセグメンテーションを実現しますが、これを大規模なリモートセンシングのシーンに適用すると、次の2つの問題が露呈します。(1) マスク生成器が持つ本質的な品質—被覆率(coverage)のトレードオフです。厳格なしきい値では正確なマスクが得られる一方で画像の大部分がセグメントされないのに対し、緩いしきい値では被覆率が増える代わりにマスク品質が低下します。(2) 大きな画像はタイルに分割せざるを得ず、その結果としてオブジェクトがタイル境界をまたいで断片化されます。
我々は、SAM2を変更せず、学習データも不要で、これら両方の問題を解決するオープンソースのパイプライン Remote SAMsing を提案します。被覆率については、マルチパスアルゴリズムが各タイルに対してSAM2を繰り返し実行し、パス間で受理されたマスクを黒く塗ることでシーンを次の反復のために単純化します。そして、被覆率の向上が停滞した場合にのみ品質のしきい値を緩和し、最も正確なマスクを常に最初に確実に取得するようにします。空間一貫性については、文脈(コンテキスト)パディングと、パラメータ不要のベストマッチ統合により、タイル境界で断片化されたオブジェクトを再構成します。7つのシーン(5~cmから4.78~mのGSD)で評価したところ、このパイプラインは、単一パスSAM2による30--68\%から91--98\%へと被覆率を向上させます。アブレーション実験により、各コンポーネントが被覆率および検出品質に与える寄与を定量化します。クラスごとの評価では、SAM2が離散的なRSオブジェクト(建物95\%、車82--93\% Det@0.5)へよく転移し、セグメント境界はSLICおよびFelzenszwalbのベースラインより3--8\timesより正確であることが示されます。タイルサイズは暗黙のスケールパラメータとして機能します。これを1{,}000から250へ減らすと、Det@0.5が56\%から85\%へ上昇し、SAM2の内蔵マルチスケール機構を上回ります。さらに、このパイプラインは再学習なしでMNFの偽カラー画像へ一般化し(99.5\% ASA)、プロダクション規模の画像へもスケールします。194億ピクセルのポツダムモザイクで、品質劣化なしに97\%の被覆率を達成しました。
Remote SAMsing:Segment AnythingからSegment Everythingへ
arXiv cs.AI / 2026/5/4
💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research
要点
- この論文は、SAM2を大規模なリモートセンシング画像に適用する際に、(1) 固定閾値による品質–カバレッジのトレードオフと、(2) タイリングにより物体がタイル境界で分断される問題の2点があることを指摘しています。
- Remote SAMsingは、SAM2を改変せず、学習データも不要でありながら、カバレッジと空間的一貫性を高めるオープンソースのパイプラインとして提案されています。
- タイルごとに推論を複数回行うことで、追加のカバレッジ向上が頭打ちになった場合にのみ品質閾値を緩め、まず最も精密なマスクを確実に取り込む設計になっています。
- コンテキスト付きパディングと、パラメータ不要のベストマッチ統合により、タイル境界で分断された物体を再構成し、空間的整合性を回復します。
- 7つのリモートセンシングシーンでの実験では、単一パスSAM2のカバレッジ(30–68%)から、91–98%まで改善し、建物95%、車82–93%(Det@0.5)などクラス別でも強い性能が示されています。さらに、誤りのあるカラーフォールスカラー画像への汎化(再学習なし)や、非常に大規模なモザイク(1.94BピクセルのPotsdamで97%カバレッジ)でも品質劣化なくスケールすることが報告されています。



