注意のための結合クエリ・キー動力学

Abstract

標準的なスケールド・ドット積注意は、入力に対する静的で独立した射影からスコアを計算します。スコアリングの前に、共有された学習済みダイナミクスによってクエリとキーを\emph{\textbf{共同で}}時間発展させること、すなわち\textbf{結合QKダイナミクス}が、言語モデリングのパープレキシティと学習の安定性を改善することを示します。WikiText-103でパラメータ60Mの場合、結合ダイナミクスは標準注意に対してパープレキシティ22.55--22.62（標準注意は24.22）で、\(

-

6.6--6.9\%\)の改善です（両方の実装間で共有される追加パラメータはわずか0.11\%）。構造的アブレーションにより、カップリングが能動的な要因であることが切り分けられます。QとKを両方結合する場合、シンプレクティック（ハミルトニアン）と非シンプレクティック（オイラー）の積分器は同一の性能を示します。一方、容量を合わせた非結合MLPベースラインは、シード分散が8倍高いにもかかわらず23.81にしか到達しません。積分ステップ数（1--7）も同様に無関係です――単一の結合ステップだけで十分です。計算量を合わせた比較により、結合は\emph{サンプル効率}のメカニズムであることが分かります。標準注意を2.4\

\times\$長く学習（ウォールクロックに合わせる）すると同じパープレキシティに到達しますが、必要なトークン数は2.4\$\times\$増えます。この優位性は150M（\(

6.7\%\)）まで拡大しますが、350Mでは\(

1.0\%\)まで縮小し、そこでDifferential Attention（18.93）が結合ダイナミクス（19.35）を上回ります。この効果はコーパス依存です。ドメインが一貫したテキストでは結合が有効です（WikiText-103 \(

6.6\%\)、PubMed \(

-$4.5\%\)）が、異種のWebテキストでは悪化します（$+10.3\%$）そしてGLUEでは効果は見られません。結合が有効な場合／無効な場合を特徴づけ、実用的なガイドラインを提示します。

注意のための結合クエリ・キー動力学

要点

Abstract

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer