HAMSA:SpectralPulseNetによるスキャン不要のビジョン状態空間モデル
arXiv cs.CV / 2026/4/17
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- この論文では、VimやVMamba、SiMBAなどの既存SSMが採用する2D画像を逐次処理へ変換するスキャン戦略による複雑さと計算オーバーヘッドを避けるため、周波数領域(スペクトル)で動作するスキャン不要のビジョン状態空間モデル「HAMSA」を提案しています。
- HAMSAは、従来の(A, B, C)行列のパラメータ化をやめ、単一のガウスで初期化した複素カーネルを用いることで、離散化に伴う不安定性の解消を狙っています。
- SpectralPulseNet(SPN)として、入力に依存した周波数ゲーティングによりスペクトル変調を適応的に行い、さらに周波数領域での勾配の流れを安定化させるSpectral Adaptive Gating Unit(SAGU)を提案しています。
- FFTベースの畳み込みにより逐次スキャンを排除し、O(L log L)の計算量を実現しつつ、ImageNet-1Kでトップ1精度85.7%を達成しています;さらに変圧器基準やスキャン型SSMに対して、推論の高速化とメモリ/エネルギー削減を報告し、転移学習や密な予測でも良好な汎化を示しています。



