なぜすべてに注意を向けるのか?鍵はフォーカス
arXiv cs.CL / 2026/4/7
📰 ニュースDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research
要点
- 本論文は、注意のすべてのトークン対を近似するのではなく、学習可能なセントロイドを用いて重要なトークン対を学習する、加法的注意手法「Focus」を提案する。
- Focusはモデルの全重みを凍結し、セントロイドのパラメータのみを学習する(約148K程度といった少数)。その結果、下流ベンチマーク性能をモデルサイズが最大70Bまでの範囲で低下させることなく、ドメインのパープレキシティを改善する。
- 推論時、Focusはtop-kのグループ選択によってルーティングを離散化し、ハードなスパース性を生成する。これにより、事前学習ベースラインに対してパープレキシティを改善しつつ、約2倍の速度向上を得る。
- 著者らは、ルーティング・パターンを2つの標準的なFlashAttention呼び出しに分解することで、カスタムカーネルを回避しつつ、1Mトークンでのウォールクロック速度を8.6倍向上させたと報告している。
- Focusは、LoRAよりも指示整合性を保てると主張しており(TruthfulQAの保持率が高い)、教師なしで、Sinkhorn正規化によりバランスが取れ解釈可能な言語グルーピングを強制する。




