AI Navigate

InfoMamba: アテンション機構を用いないハイブリッドMamba-Transformerモデル

arXiv cs.AI / 2026/3/20

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • InfoMambaは、トークンレベルの自己注意を線形フィルタリング層へ置換し、最小帯域幅のグローバルインターフェースとして機能する層と、選択的再帰ストリームを組み合わせた、アテンション機構を用いないハイブリッドアーキテクチャを導入します。
  • 一貫性境界分析を提示し、対角線状の短期記憶SSMが因果的アテンションを近似できる条件を特徴づけ、残る構造的ギャップを特定します。
  • 本モデルは情報最大化融合(IMF)を用いてSSMダイナミクスに動的にグローバルコンテキストを注入し、補完的情報の利用を促す相互情報量に着想を得た目的関数を採用します。
  • 分類、密集予測、非ビジョンタスクにおける実証結果は、InfoMambaが強力なTransformerおよびSSMベースラインをほぼ線形にスケールする性能と、競争力のある精度・効率のトレードオフで上回ることを示しています。

要約:計算資源の制約の下で、細粒度の局所モデリングと長距離依存の捕捉のバランスを取ることは、シーケンスモデリングの中心的な課題であり続けます。トランスフォーマーは強力なトークン混合を提供しますが、二次の計算量を要します。一方、Mambaスタイルの選択的状態空間モデル(SSMs)は線形にスケールしますが、高秩と同期的なグローバル相互作用を捉えるのが難しいことがよくあります。対角線状の短期記憶SSMが因果的注意を近似できる条件を特徴づけ、残る構造的ギャップを特定する一貫性境界分析を提示します。 この分析に動機づけられ、アテンション不要のハイブリッドアーキテクチャであるInfoMambaを提案します。InfoMambaはトークンレベルの自己注意を、最小帯域幅のグローバルインターフェースとして機能する概念ボトルネック線形フィルタリング層に置換し、それを情報最大化融合(IMF)を介して選択的再帰ストリームと統合します。IMFはグローバルコンテキストをSSMのダイナミクスに動的に注入し、相補的な情報の利用を相互情報量に着想を得た目的関数を通じて促進します。分類、密度予測、非ビジョンタスクにおける広範な実験は、InfoMambaが強力なトランスフォーマーおよびSSMのベースラインを一貫して上回り、近似的な線形スケーリングを維持しつつ、精度と効率の競争力のあるトレードオフを実現することを示しています。