Prolepsis（先取りコミットメント）の最小アーキテクチャとは？小型トランスフォーマにおけるタスク横断の不可逆的コミット

要点

本論文は「prolepsis」を提案し、トランスフォーマが意思決定を早期に確定すると、そのコミットを維持するタスク固有の注意ヘッドが後段で支え、以降の層は修正できないことを示します。
Gemma 2 2BおよびLlama 3.2 1Bといった公開モデルで既存研究の「planning-site」発見を再現したところ、計画（planning）シグナルは複数の残差ストリーム解析手法に対して見えず、CLTsが必要であると報告しています。
コミット済みの意思決定を出力へルーティングする注意ヘッドのメカニズムを特定し、従来のアトリビューション・グラフでは検出できなかった“責任経路”のギャップを埋めます。
探索（search）とコミット（commitment）で必要条件が異なることを示し、探索は層数≤16で成り立つ一方、コミットにはより多くの層が必要だと述べています。
事実想起（factual recall）では、別のネットワーク深さに同様のモチーフが現れるものの、再出現する計画ヘッドと事実想起の上位10ヘッドは重ならないため、アーキテクチャ的なモジュール性が示唆されます。

要旨: トランスフォーマーはいつ意思決定を確約し、その意思決定を修正することを何が妨げるのでしょうか。私たちは extbf{prolepsis}（先取り確約）を提案します。これは、トランスフォーマーが早期に確約し、タスク固有の注意ヘッドがその確約を維持し、いかなる層もそれを修正しない、というものです。

oindent

oindent
引用元の

oindent

oindent
引用元:
引用された
引用元:
引用元の

oindent

oindent
引用元の

引用元である \citeauthor{lindsey2025biology} の（\citeyear{lindsey2025biology}）計画サイトに関する発見を、公開モデル（Gemma~2 2B、Llama~3.2 1B）で再現します。次の5つの質問を行います。（Q1）~計画は、6つの残差ストリーム手法には見えません。CLTが必要です。（Q2）~計画サイトのスパイクは、まったく同一の幾何学（geometry）で再現されます。（Q3）~特定の注意ヘッドが意思決定を出力へ誘導し、帰属グラフでは見えないと指摘されたギャップを埋めます。（Q4）~探索（search）には ${\leq}16$ 層で足りますが、確約（commitment）にはそれ以上が必要です。（Q5）~事実想起（factual recall）は、異なるネットワーク深さで同じモチーフを示し、繰り返し現れる計画ヘッドと事実のトップ10の間には重なりがゼロです。先取り確約（Prolepsis）は建築（architecture）的です。すべてのテンプレートは共有されますが、ルーティングの基盤（substrates）は異なります。すべての実験は、単一のコンシューマGPU（16\,GB VRAM）上で実行します。

Prolepsis（先取りコミットメント）の最小アーキテクチャとは？小型トランスフォーマにおけるタスク横断の不可逆的コミット

要点

関連記事

langchain-anthropic==1.4.1 の変更点

お気に入りのゲームキャラと会話しよう！MantellaがSkyrimとFallout 4のNPCにAIを導入

OpenAI、macOSオートメーションとメモリを備えたCodexアップデートを公開—週300万人利用

1.14.2

企業のAIエージェントはそれをするべき？NanoClawとVercelが15のメッセージングアプリでの“エージェントの方針設定”と承認ダイアログを容易にする

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer