ConvVitMamba:効率的なマルチスケール畳み込み・Transformer・Mambaに基づく配列モデリングによるハイパースペクトル画像分類
arXiv cs.CV / 2026/4/22
📰 ニュースDeveloper Stack & InfrastructureModels & Research
要点
- ハイパースペクトル画像(HSI)分類は、スペクトルの次元が高いこと、冗長性があること、ラベル付きデータが限られることから難しく、効率性と精度を両立するモデリング手法が求められている。
- 提案手法ConvVitMambaは、局所的なスペクトル・空間パターンを捉えるマルチスケール畳み込み、グローバル文脈を扱うVision Transformerのトークナイズ/エンコード、そして二次的な自己注意を避ける軽量なMamba系のゲーティング付き配列ミキシングを組み合わせたハイブリッド構成である。
- スペクトル冗長性を減らして効率を高めるために、主成分分析(PCA)を前処理として用いている。
- 4つのベンチマーク(HoustonおよびUAV搭載のQUHデータセット3件)で、ConvVitMambaはCNN・Transformer・Mamba系手法を一貫して上回り、精度とモデルサイズ、推論効率のバランスが良好であることを示している。
- アブレーション実験により、3つの構成要素が相補的に性能に寄与していることが確認され、ソースコードも公開されている。


