なぜすべてに注意を向けるのか?鍵はフォーカス

arXiv cs.CL / 2026/4/7

📰 ニュースDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、注意のすべてのトークン対を近似するのではなく、学習可能なセントロイドを用いて重要なトークン対を学習する、加法的注意手法「Focus」を提案する。
  • Focusはモデルの全重みを凍結し、セントロイドのパラメータのみを学習する(約148K程度といった少数)。その結果、下流ベンチマーク性能をモデルサイズが最大70Bまでの範囲で低下させることなく、ドメインのパープレキシティを改善する。
  • 推論時、Focusはtop-kのグループ選択によってルーティングを離散化し、ハードなスパース性を生成する。これにより、事前学習ベースラインに対してパープレキシティを改善しつつ、約2倍の速度向上を得る。
  • 著者らは、ルーティング・パターンを2つの標準的なFlashAttention呼び出しに分解することで、カスタムカーネルを回避しつつ、1Mトークンでのウォールクロック速度を8.6倍向上させたと報告している。
  • Focusは、LoRAよりも指示整合性を保てると主張しており(TruthfulQAの保持率が高い)、教師なしで、Sinkhorn正規化によりバランスが取れ解釈可能な言語グルーピングを強制する。

Abstract

私たちはFocusという方法を提案します。これは、すべてのトークン対を近似するのではなく、どのトークン対が重要かを学習します。学習可能なセントロイドがトークンをグループに割り当て、遠距離の注意(attention)は同一グループの組にのみ制限されます。一方、局所的な注意はフル解像度で動作します。モデルの全重みを凍結したままにするため、Focusは純粋に加法的です。セントロイドのみの学習(パラメータ数はわずか148K)によって、下流ベンチマークでの劣化ゼロのままドメインのパープレキシティが改善されます――124Mから70Bパラメータまで、5種類の注意アーキテクチャにわたって。既存の効率的注意手法は、このリトロフィット(後付け)設定において、この水準を達成できていません。124MではFocusがフル注意を上回ります(30.3 vs 31.4 PPL)。さらに7Bスケール(2Bトークン)でスクラッチから学習した場合も、Focusは再びフル注意を上回ります(13.82 vs 13.89 PPL)。推論時には、各トークンをその上位k個のスコアが最も高いグループに限定することで、ソフトなルーティングを離散的なハードなスパース性パターンに変換します。これにより、事前学習ベースラインを上回りつつ2倍の速度向上が得られます(41.3 vs 42.8 PPL)。このパターンを2回の標準FlashAttention呼び出しに分解すると、カスタムカーネルなしで、1Mトークンにおいてウォールクロックベースで8.6倍の速度向上が実現します。LoRAとは異なり、セントロイド・ルーティングはアライメントを保持します。命令チューニング済みモデルでは、適応後もTruthfulQAスコアが維持されますが、LoRAは学習率およびランクのすべてで劣化します。Sinkhorn正規化は、ハード制約としてグループのバランスを保証し、その結果得られるグループは、教師なしで解釈可能な言語的カテゴリを発見します。