資源の壁を打ち破る:幾何学ガイダンス付きシーケンスモデリングによる効率的な意味セグメンテーション

arXiv cs.CV / 2026/4/28

📰 ニュースDeveloper Stack & InfrastructureModels & Research

要点

  • 本論文は、DGM-Net(Directional Geometric Mamba Network)という幾何学ガイド付きの意味セグメンテーションモデルを提案し、バックボーンを大きくしたり計算予算を増やしたりせずに性能を高めることを狙っています。
  • 方向性幾何学マバ(G-Mamba)として、ASPPやPPMのような従来の文脈(コンテキスト)モジュールに代わるO(N)の線形計算量コンテキスト/シーケンスモデリング演算子を提示しています。
  • SSM(state space model)ベースの処理における構造認識を強化するため、DGM-Moduleを設計し、求心性フローフィールドと位相スケルトンを抽出してスキャン処理を導き、境界の保持を改善します。
  • 大規模事前学習やヘビーなバックボーンスケーリングに依存せず、報告された設定で28kイテレーション内に80.8% mIoU、Cityscapesテストで82.3% mIoU、ADE20Kで45.24% mIoUを達成し、さらに8GB VRAMでバッチサイズ2といった制約環境でも安定した性能を維持すると述べています。
  • まとめると、SSMベースのアーキテクチャに幾何学的ガイダンスを組み込むことで、資源効率の高い高品質な意味セグメンテーションが可能になると主張しています。

概要: 高性能なセマンティックセグメンテーションは、近年目覚ましい進展を遂げており、多くの場合、より大規模なバックボーンや高い計算予算によって推進されています。有効ではあるものの、これらの手法は大きな計算オーバーヘッドを導入し、制約のあるハードウェア環境では利用しにくくなります。本論文では、モデル容量を増やすのではなく構造設計によってモデリング能力を向上させる、効率的なアーキテクチャであるDGM-Net(Directional Geometric Mamba Network)を提案します。本手法では、ASPPやPPMといった従来のコンテキストモデリングモジュールの代替として、線形計算量の O(N) 演算子であるDirectional Geometric Mamba(G-Mamba)を導入します。さらに、SSM(State Space Model)ベースのモデリングにおける構造的な認識を強化するために、DGM-Moduleを設計します。このモジュールは、求心性のフローフィールドと位相的スケルトンを抽出し、スキャン処理を導くことで境界の保持を改善します。大規模な事前学習や重いバックボーンのスケーリングに依存することなく、DGM-Netは28kイテレーションで80.8%のmIoUを達成し、Cityscapesのテストセットで82.3%のmIoU、ADE20Kで45.24%のmIoUを達成します。加えて、(8GB VRAMに対してバッチサイズ2など)制約のあるハードウェア環境下でも安定した性能を維持しており、その効率性と実用性が示されています。これらの結果は、SSMベースのアーキテクチャに幾何学的ガイダンスを組み込むことが、セマンティックセグメンテーションに対して有効かつリソース効率の高い方向性を提供することを示しています。