アライメント回路の経路:言語モデルにおけるローカライズ、スケール、制御の方法

arXiv cs.CL / 2026/4/7

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、アライメント学習済みの言語モデルにおける反復的な疎(スパース)ルーティング機構を報告する。ゲート注意ヘッドが特定の内容を検出し、その結果として下流の増幅(アンプリファ)ヘッドを作動させることで、拒否行動を強化する。
  • 著者らは、「政治的検閲」と「安全上の拒否」を“自然実験”として用い、6つの研究機関からの9モデルにまたがってこの回路を追跡し、120個のプロンプト対で検証する。必要性/十分性に基づくテストや、リサンプリング下での頑健性によって裏付ける。
  • スケーリング実験から、モデルが大きくなってもルーティング構造が検出可能で機能し続けることが示される。さらに、アブレーションにより最大17倍弱めても、ルーティングの痕跡は維持される。
  • 検出層(検出レイヤー)の信号を変調することで、著者らは政策強度を連続的に制御できることを示す。すなわち、ハードな拒否からステアリング(誘導)、そして事実遵守へと段階的に調整可能であり、ルーティングの閾値はトピックに依存する。
  • 回路の分析は、意図認識と政策ルーティングの間に分離があることを示唆する。入力が暗号化(シファー符号化)されると、ルーティングへの寄与は崩壊し、モデルは拒否ではなくパズル解法を実行する。その結果、事前学習知識と事後学習による政策結び付けでは、頑健性の特性が異なる可能性が示される。