Abstract
標準的なスケールド・ドット積注意は、入力に対する静的で独立した射影からスコアを計算します。スコアリングの前に、共有された学習済みダイナミクスによってクエリとキーを\emph{\textbf{共同で}}時間発展させること、すなわち\textbf{結合QKダイナミクス}が、言語モデリングのパープレキシティと学習の安定性を改善することを示します。WikiText-103でパラメータ60Mの場合、結合ダイナミクスは標準注意に対してパープレキシティ22.55--22.62(標準注意は24.22)で、\(-6.6--6.9\%\)の改善です(両方の実装間で共有される追加パラメータはわずか0.11\%)。構造的アブレーションにより、カップリングが能動的な要因であることが切り分けられます。QとKを両方結合する場合、シンプレクティック(ハミルトニアン)と非シンプレクティック(オイラー)の積分器は同一の性能を示します。一方、容量を合わせた非結合MLPベースラインは、シード分散が8倍高いにもかかわらず23.81にしか到達しません。積分ステップ数(1--7)も同様に無関係です――単一の結合ステップだけで十分です。計算量を合わせた比較により、結合は\emph{サンプル効率}のメカニズムであることが分かります。標準注意を2.4\\times\$長く学習(ウォールクロックに合わせる)すると同じパープレキシティに到達しますが、必要なトークン数は2.4\$\times\$増えます。この優位性は150M(\(-6.7\%\))まで拡大しますが、350Mでは\(-1.0\%\)まで縮小し、そこでDifferential Attention(18.93)が結合ダイナミクス(19.35)を上回ります。この効果はコーパス依存です。ドメインが一貫したテキストでは結合が有効です(WikiText-103 \(-6.6\%\)、PubMed \(-$4.5\%\))が、異種のWebテキストでは悪化します(\(+10.3\%\))そしてGLUEでは効果は見られません。結合が有効な場合/無効な場合を特徴づけ、実用的なガイドラインを提示します。