要旨: 標準のsoftmax注意における中核的な制限は、絶対的なクエリ―キーの関連性という概念を定義しないことである。注意重みは、相対的なスコアに従って、固定された単位質量をすべてのキーに再配分することで得られる。その結果、関連性は競合するキーに対してのみ相対的に定義され、無関係なキーを明示的に拒否することはできない。私たちは、screening(スクリーニング)と呼ぶ仕組みを中核に据えた言語モデル・アーキテクチャであるMultiscreenを導入し、これによって絶対的なクエリ―キー関連性を可能にする。すべてのキーに対して注意を再配分するのではなく、screeningは、明示的なしきい値に対して各キーを評価し、無関係なキーを捨て、残ったキーを集約する。これにより、キー間のグローバルな競合が取り除かれる。実験を通じてMultiscreenは、Transformerのベースラインと同等の検証損失を、パラメータ数を約40%少なくして達成し、実質的により大きな学習率で安定した最適化を可能にし、長いコンテキストにおけるパープレキシティで強い性能を維持し、学習コンテキスト長をはるかに超えた場合でも検索性能の低下がほとんど、または全く見られず、さらに推論レイテンシをコンテキスト長100Kで最大3.2\times削減する。
スクリーニングで十分
arXiv cs.LG / 2026/4/2
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- この論文は、従来のソフトマックス注意機構にはクエリとキーの関連性に関する絶対的な概念が欠けていると主張している。注意は競合するキー間で固定された質量を再配分するだけであり、無関係なキーを明示的に拒否することが難しいためである。
- 「スクリーニング」機構を用いる言語モデル・アーキテクチャであるMultiscreenを提案する。各キーを閾値で評価して明示的に受理/拒否し、残ったキーだけを集約することで、グローバルな競合を取り除く。
- 実験では、MultiscreenがTransformerと同等の検証ロスを達成しつつ、約40%少ないパラメータで、さらに非常に高い学習率でも安定した学習が可能であることが報告されている。
- この手法は、強力な長文コンテキストでのパープレキシティ性能を維持し、学習時のコンテキスト長を超えても検索(リトリーバル)の劣化が最小限であること、また100Kコンテキスト長で推論レイテンシを最大3.2倍削減できることが報告されている。