アライメント回路の経路:言語モデルにおけるローカライズ、スケール、制御の方法
arXiv cs.CL / 2026/4/7
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、アライメント学習済みの言語モデルにおける反復的な疎(スパース)ルーティング機構を報告する。ゲート注意ヘッドが特定の内容を検出し、その結果として下流の増幅(アンプリファ)ヘッドを作動させることで、拒否行動を強化する。
- 著者らは、「政治的検閲」と「安全上の拒否」を“自然実験”として用い、6つの研究機関からの9モデルにまたがってこの回路を追跡し、120個のプロンプト対で検証する。必要性/十分性に基づくテストや、リサンプリング下での頑健性によって裏付ける。
- スケーリング実験から、モデルが大きくなってもルーティング構造が検出可能で機能し続けることが示される。さらに、アブレーションにより最大17倍弱めても、ルーティングの痕跡は維持される。
- 検出層(検出レイヤー)の信号を変調することで、著者らは政策強度を連続的に制御できることを示す。すなわち、ハードな拒否からステアリング(誘導)、そして事実遵守へと段階的に調整可能であり、ルーティングの閾値はトピックに依存する。
- 回路の分析は、意図認識と政策ルーティングの間に分離があることを示唆する。入力が暗号化(シファー符号化)されると、ルーティングへの寄与は崩壊し、モデルは拒否ではなくパズル解法を実行する。その結果、事前学習知識と事後学習による政策結び付けでは、頑健性の特性が異なる可能性が示される。


