SF-Mamba: 視覚のための状態空間モデルを再考

arXiv cs.CV / 2026/3/18

📰 ニュースModels & Research

共有:

要点

SF-Mambaは、視覚に焦点を当てたMambaを提示し、二つの主要な革新を特徴とします。片方向スキャン下で双方向の情報フローを可能にする補助パッチのスワップ、そしてGPU並列性を高めるための周期的な状態リセットを伴うバッチ折り畳み。
このアプローチは、高いスループットと効率を実現するよう設計されており、複数のモデルサイズにおいて画像分類、物体検出、インスタンス/セマンティックセグメンテーションにおいて最先端のベースラインを上回る性能を発揮します。
従来のMambaバリアントおよびViTの制約を解消し、二次計算量や重いデータ再配置に頼ることなく、パッチ間の相互作用をより効率的に実現します。
著者らは、論文公開後にソースコードを公開する予定です。

要旨：視覚用の Mamba は、近年、二次の計算量に悩む Vision Transformers (ViTs) の代替手段を追求するために進化してきました。視覚用の Mamba の反復スキャン機構は計算効率を提供する一方で、画像パッチ間の非因果的相互作用を本質的に制限します。これまでの研究はこの制限に対処するため、さまざまなマルチスキャン戦略を試みてきましたが、これらのアプローチは、最適でないスキャン設計や頻繁なデータ再配置に起因する非効率性に悩まされます。さらに、視覚タスクで一般的に用いられる短いトークン長の下では、Mamba は相対的に遅い計算速度を示します。真に効率的な視覚エンコーダを追求するために、視覚のスキャン操作と Mamba の計算効率を再考します。これを受けて、2つの主要な提案を備えた新規視覚用 Mamba、SF-Mamba を提案します。1) 単方向スキャン下で双方向情報フローを符号化するための補助パッチ交換、2) 高度な GPU 並列性のための周期的な状態リセットを伴うバッチ折り畳み。画像分類、物体検出、インスタンス分割とセマンティック分割における広範な実験は、提案する SF-Mamba が最先端のベースラインを大幅に上回り、さまざまなモデルサイズでスループットを改善することを一貫して示しています。公開後にソースコードを公開します。

仕様駆動開発における自己改良エージェント

Dev.to

誰かこれを試したことはありますか？ Flash-MoE: ノートパソコンで3,970億パラメータのモデルを動かす

Reddit r/LocalLLaMA

M2.7のオープンウェイト、約2週間で公開予定

Reddit r/LocalLLaMA

MiniMax M2.7 ウェイト公開予定

Reddit r/LocalLLaMA

Claude Codeに最適なオープンソースのコーディングモデルは？LB?

Reddit r/LocalLLaMA

SF-Mamba: 視覚のための状態空間モデルを再考

要点

関連記事

仕様駆動開発における自己改良エージェント

誰かこれを試したことはありますか？ Flash-MoE: ノートパソコンで3,970億パラメータのモデルを動かす

M2.7のオープンウェイト、約2週間で公開予定

MiniMax M2.7 ウェイト公開予定

Claude Codeに最適なオープンソースのコーディングモデルは？LB?

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer