ConvVitMamba:効率的なマルチスケール畳み込み・Transformer・Mambaに基づく配列モデリングによるハイパースペクトル画像分類

arXiv cs.CV / 2026/4/22

📰 ニュースDeveloper Stack & InfrastructureModels & Research

要点

  • ハイパースペクトル画像(HSI)分類は、スペクトルの次元が高いこと、冗長性があること、ラベル付きデータが限られることから難しく、効率性と精度を両立するモデリング手法が求められている。
  • 提案手法ConvVitMambaは、局所的なスペクトル・空間パターンを捉えるマルチスケール畳み込み、グローバル文脈を扱うVision Transformerのトークナイズ/エンコード、そして二次的な自己注意を避ける軽量なMamba系のゲーティング付き配列ミキシングを組み合わせたハイブリッド構成である。
  • スペクトル冗長性を減らして効率を高めるために、主成分分析(PCA)を前処理として用いている。
  • 4つのベンチマーク(HoustonおよびUAV搭載のQUHデータセット3件)で、ConvVitMambaはCNN・Transformer・Mamba系手法を一貫して上回り、精度とモデルサイズ、推論効率のバランスが良好であることを示している。
  • アブレーション実験により、3つの構成要素が相補的に性能に寄与していることが確認され、ソースコードも公開されている。

Abstract

分光次元の高さ、冗長性、そして限られたラベル付きデータのため、ハイパースペクトル画像(HSI)の分類は依然として困難です。畳み込みニューラルネットワーク(CNN)やビジョントランスフォーマ(ViT)は、スペクトル-空間情報や長距離依存関係を活用することで高い性能を達成しますが、多くの場合、計算コストが高くモデル規模も大きいため、実用上の制約となります。これらの制限に対処するため、効率的なHSI分類のための統一型ハイブリッドフレームワーク「ConvVitMamba」が提案されます。このアーキテクチャは3つの構成要素を統合しています。局所的なスペクトル、空間、および結合パターンを捉えるためのマルチスケール畳み込み特徴抽出器、グローバルな文脈関係をモデル化するためのVision Transformerに基づくトークン化およびエンコーディング段階、そして二次的な自己注意を用いずに効率良くコンテンツに応じた洗練を行うための、軽量なMambaに着想を得たゲート付きシーケンス混合モジュールです。前処理として主成分分析(PCA)を用い、冗長性を削減して効率を向上させます。Houstonを含む4つのベンチマークデータセットに対する実験、および3つのUAV搭載型QUHデータセット(Pingan、Qingyun、Tangdaowan)では、ConvVitMambaがCNN、Transformer、Mambaに基づく手法を一貫して上回り、精度、モデルサイズ、推論効率の間で好ましいバランスを維持することが示されます。アブレーション研究により、すべての構成要素の相補的な寄与が確認されます。その結果、提案フレームワークは多様なシナリオにおけるHSI分類に対して、効果的かつ効率的な解決策を提供することが示唆されます。ソースコードは https://github.com/mqalkhatib/ConvVitMamba で公開されています