要旨:視覚用の Mamba は、近年、二次の計算量に悩む Vision Transformers (ViTs) の代替手段を追求するために進化してきました。視覚用の Mamba の反復スキャン機構は計算効率を提供する一方で、画像パッチ間の非因果的相互作用を本質的に制限します。これまでの研究はこの制限に対処するため、さまざまなマルチスキャン戦略を試みてきましたが、これらのアプローチは、最適でないスキャン設計や頻繁なデータ再配置に起因する非効率性に悩まされます。さらに、視覚タスクで一般的に用いられる短いトークン長の下では、Mamba は相対的に遅い計算速度を示します。真に効率的な視覚エンコーダを追求するために、視覚のスキャン操作と Mamba の計算効率を再考します。これを受けて、2つの主要な提案を備えた新規視覚用 Mamba、SF-Mamba を提案します。1) 単方向スキャン下で双方向情報フローを符号化するための補助パッチ交換、2) 高度な GPU 並列性のための周期的な状態リセットを伴うバッチ折り畳み。画像分類、物体検出、インスタンス分割とセマンティック分割における広範な実験は、提案する SF-Mamba が最先端のベースラインを大幅に上回り、さまざまなモデルサイズでスループットを改善することを一貫して示しています。公開後にソースコードを公開します。
SF-Mamba: 視覚のための状態空間モデルを再考
arXiv cs.CV / 2026/3/18
📰 ニュースModels & Research
要点
- SF-Mambaは、視覚に焦点を当てたMambaを提示し、二つの主要な革新を特徴とします。片方向スキャン下で双方向の情報フローを可能にする補助パッチのスワップ、そしてGPU並列性を高めるための周期的な状態リセットを伴うバッチ折り畳み。
- このアプローチは、高いスループットと効率を実現するよう設計されており、複数のモデルサイズにおいて画像分類、物体検出、インスタンス/セマンティックセグメンテーションにおいて最先端のベースラインを上回る性能を発揮します。
- 従来のMambaバリアントおよびViTの制約を解消し、二次計算量や重いデータ再配置に頼ることなく、パッチ間の相互作用をより効率的に実現します。
- 著者らは、論文公開後にソースコードを公開する予定です。


