構造的剛性と57トークン予測ウィンドウ:大規模言語モデルにおける推論レイヤの統治可能性のための物理的枠組み

arXiv cs.AI / 2026/4/7

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、行動モニタリングやポストトレーニングのアライメントに基づく一般的なAIセーフティ手法では、検証された多くの指示チューニング済みLLMにおいて事前コミットメント(pre-commitment)を示す検出可能なシグナルが生成されない可能性があると主張する。
  • それらは、トランスフォーマの推論ダイナミクスを、ニューラル計算に対する制約充足(constraint-satisfaction)の見方に結び付けるエネルギー(energy)ベースの統治フレームワークを提案する。
  • 「トラジェクトリの緊張(trajectory tension)」(ρ = ||a|| / ||v||)を用いて、著者らは、Phi-3-mini-4k-instructにおいて、算術の制約プローブ上で貪欲(greedy)デコーディングを行った場合に、モデルおよび設定に固有の57トークン予測ウィンドウを特定する。
  • 推論挙動を5つのレジームに分類するタクソノミー(Authority Band、Late Signal、Inverted、Flat、Scaffold-Selective)を導入し、エネルギー非対称性を用いて、レジームおよびモデル間で「構造的剛性(structural rigidity)」を定量化する。
  • 本研究では、幻覚(hallucination)は72のテスト条件のいずれにおいても予測シグナルを示さないことが分かり、幻覚とルール違反は別個の失敗モードであるため、異なる検出アプローチ(内部幾何モニタリング vs 外部検証)を必要とすることが示唆される。

要旨: 現在のAI安全性は、行動の監視と事後トレーニングの整合(アラインメント)に依存しています。しかし、実証的な計測によれば、これらのアプローチは、検証した大多数の指示チューニング済みモデルにおいて、検出可能な事前コミットメント・シグナル(pre-commitment signal)を生成しません。私たちは、トランスフォーマーの推論ダイナミクスを、神経計算の制約充足モデルに結び付けるエネルギーベースのガバナンス枠組みを提示し、それを5つの幾何学的レジームにわたる7モデルのコホートに適用します。
軌道の張力(rho = ||a|| / ||v||)を用いることで、算術制約プローブ上で貪欲デコーディング(greedy decoding)を行ったPhi-3-mini-4k-instructにおいて、57トークンの事前コミットメント・ウィンドウを特定します。この結果はモデル固有であり、タスク固有であり、設定(configuration)固有でもあります。つまり、事前コミットメント・シグナルは存在し得るが、それは普遍的ではないことを示しています。
私たちは推論挙動の5レジーム分類法を導入します。すなわち、Authority Band(権威バンド)、Late Signal(後期シグナル)、Inverted(反転)、Flat(フラット)、Scaffold-Selective(足場選択)です。エネルギー非対称性({\Sigma}\r{ho}_misaligned / {\Sigma}\r{ho}_aligned)は、これらのレジームにまたがる構造的剛性の統一的な指標として機能します。
7モデルの範囲では、コミットメント以前に予測可能なシグナルを示すのは1つの設定のみであり、他はすべて、サイレントな失敗(silent failure)、後期での検出、反転したダイナミクス、またはフラットな幾何学を示します。
さらに、事実のハルシネーション(事実の取り違え/虚偽生成)は72のテスト条件すべてにおいて予測可能なシグナルを生まないことを示します。これは、訓練されたワールドモデルの制約が存在しない場合に、見かけ上のアトラクタが収束すること(spurious attractor settling)と整合的です。
これらの結果は、ルール違反(rule violation)とハルシネーション(hallucination)が異なる失敗モードであり、それぞれ異なる検出要件を持つことを確立します。内部の幾何学(internal geometry)モニタリングが有効なのは、抵抗が存在する場合のみです。一方で、事実の取り違え(事実的な取り繕い/confabulation)の検出には、外部検証メカニズムが必要です。
本研究は、推論層におけるガバナブル性(governability)を測定可能な枠組みとして提示し、自律型AIシステムにおけるデプロイメント・リスクを評価するための分類法を導入します。

構造的剛性と57トークン予測ウィンドウ:大規模言語モデルにおける推論レイヤの統治可能性のための物理的枠組み | AI Navigate