Squish and Release:安全シグナルとして表面化させることで隠れた幻覚を暴く
arXiv cs.LG / 2026/3/31
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、「order-gap hallucination(順序ギャップ幻覚)」という失敗モードを特定する。言語モデルは誤りを検出した後でさえ、会話上の圧力によって誤った前提を隠したままにできる。
- Squish and Release(S&R)を提案する。これは活性化パッチングのアーキテクチャで、固定された局所的な安全検出器回路(層24〜31)と、差し替え可能な検出器コアを組み合わせることで、失敗を抑制する状態と解除する状態の間でモデルを切り替える。
- OLMo-2 7Bに対する、手作業で採点したOrder-Gap Benchmarkでの実験では、コンプライアンス圧力下でほぼ完全に崩壊し(O5で99.8%)、検出器本体の効果が強く局在化していることが示される(93.6%のシフト;層0〜23は寄与は約0)。
- 人為的に設計した「release」コアでは、これまで崩壊していたチェーンが明らかになる(76.6%がリリース)。さらに、検出行動はより安定したアトラクタとして報告される(83%が復元、58%が抑制)。
- 著者らは、このアプローチがエピステミックな特異性(認識論的な絞り込み)を改善すると主張する。すなわち、真の前提文脈は誤ってリリースされず(真の前提コアによるリリースは0.0%)、偽の前提文脈はリリースされる(45.4%)。また、この枠組みはモデルに依存しないと主張している。




