要旨: トランスフォーマーはいつ意思決定を確約し、その意思決定を修正することを何が妨げるのでしょうか。私たちは extbf{prolepsis}(先取り確約)を提案します。これは、トランスフォーマーが早期に確約し、タスク固有の注意ヘッドがその確約を維持し、いかなる層もそれを修正しない、というものです。
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
引用元の
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
引用元:
引用された
引用元:
引用元の
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
oindent
引用元の
引用元である \citeauthor{lindsey2025biology} の(\citeyear{lindsey2025biology})計画サイトに関する発見を、公開モデル(Gemma~2 2B、Llama~3.2 1B)で再現します。次の5つの質問を行います。 (Q1)~計画は、6つの残差ストリーム手法には見えません。CLTが必要です。 (Q2)~計画サイトのスパイクは、まったく同一の幾何学(geometry)で再現されます。 (Q3)~特定の注意ヘッドが意思決定を出力へ誘導し、帰属グラフでは見えないと指摘されたギャップを埋めます。 (Q4)~探索(search)には {\leq}16 層で足りますが、確約(commitment)にはそれ以上が必要です。 (Q5)~事実想起(factual recall)は、異なるネットワーク深さで同じモチーフを示し、繰り返し現れる計画ヘッドと事実のトップ10の間には重なりがゼロです。先取り確約(Prolepsis)は建築(architecture)的です。すべてのテンプレートは共有されますが、ルーティングの基盤(substrates)は異なります。すべての実験は、単一のコンシューマGPU(16\,GB VRAM)上で実行します。


