Stochastic Attention：コネクトームに着想を得たランダム化ルーティングによる表現力のある線形時間アテンション

arXiv cs.CL / 2026/4/3

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、コネクトーム（脳の結合地図）に着想を得た手法である Stochastic Attention（SA）を提案する。具体的には、トークン順序をランダムにパーマット（置換）したうえでスライディングウィンドウ注意を適用し、その後に元の順序へ復元する。
SAは、固定されたローカルウィンドウを確率的なグローバルルーティング機構へと効果的に変換しつつ、層あたりの計算予算は従来と同じ O(nw) を維持する。
深さ方向に独立なパーミュテーションをサンプリングすることで、SAは受容野を指数的に拡大し、標準的なスライディングウィンドウ注意で必要な O(n/w) ではなく O(log_w n) 層で系列全体のカバレッジに到達する。
実験の結果、SAは言語モデルの事前学習を改善する（平均ゼロショット精度では、ゲート付きSA+SWAが最良）ほか、Qwen3-8BおよびQwen3-30B-A3Bに対する学習不要の推論（training-free inference）も向上する。さらに、同程度の計算量のもとでSWAを上回り、Mixture of Block Attentionに対して同等以上の性能を示す。
著者らは、脳のコネクトミクスに触発された確率的ルーティングが、既存の効率的アテンション手法（線形/疎）を補完する実用的な「そのまま置き換えて使える」アテンション・プリミティブであると主張している。

要旨: ショウジョウバエの全脳コネクトームは、わずか0.02%の確率で結合された130K以上のニューロンで構成されるが、それでいて平均最短経路がわずか4.4ホップにとどまる。回路レベルでは高度に構造化されているにもかかわらず、ネットワークの長距離結合は脳領域全体にわたって広く分散しており、効率的な大域通信を可能にする確率的なショートカットとして機能している。この観察に触発され、我々はStochastic Attention（SA）を提案する。これはスライディングウィンドウ注意（SWA）の「差し替え可能な」強化であり、ウィンドウ内注意を行う前にトークン列へランダムな置換（パーミュテーション）を適用し、その後に元の順序へ復元する。これにより、同じ各層あたりの予算 $O(nw)$ の範囲内で、固定されたローカルウィンドウを確率的なグローバルウィンドウへと変換する。深さ方向では、独立にサンプリングされた置換によって受容野が指数関数的に拡大し、SWAに対して $O(n/w)$ 必要だったのに対し、 $O(lg_w n)$ 層で全シーケンスをカバーできる。SAを2つの状況で検証する。（1）スクラッチからの事前学習言語モデル。ここでは、ゲート付きSA＋SWAの組み合わせが最良の平均ゼロショット精度を達成する。（2）Qwen3-8BおよびQwen3-30B-A3Bに対する学習不要の推論。ここではSAは一貫してSWAを上回り、同等の計算予算のもとでMixture of Block Attentionに匹敵、あるいはそれを上回る。これらの結果は、コネクトームに着想を得た確率的ルーティングが、既存の線形手法や疎な手法を補完する、効率的注意の表現力を高めるための実用的なプリミティブであることを示唆している。