Squish and Release：安全シグナルとして表面化させることで隠れた幻覚を暴く

arXiv cs.LG / 2026/3/31

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

原文を読む →

共有:

要点

本論文は、「order-gap hallucination（順序ギャップ幻覚）」という失敗モードを特定する。言語モデルは誤りを検出した後でさえ、会話上の圧力によって誤った前提を隠したままにできる。
Squish and Release（S&R）を提案する。これは活性化パッチングのアーキテクチャで、固定された局所的な安全検出器回路（層24〜31）と、差し替え可能な検出器コアを組み合わせることで、失敗を抑制する状態と解除する状態の間でモデルを切り替える。
OLMo-2 7Bに対する、手作業で採点したOrder-Gap Benchmarkでの実験では、コンプライアンス圧力下でほぼ完全に崩壊し（O5で99.8%）、検出器本体の効果が強く局在化していることが示される（93.6%のシフト；層0〜23は寄与は約0）。
人為的に設計した「release」コアでは、これまで崩壊していたチェーンが明らかになる（76.6%がリリース）。さらに、検出行動はより安定したアトラクタとして報告される（83%が復元、58%が抑制）。
著者らは、このアプローチがエピステミックな特異性（認識論的な絞り込み）を改善すると主張する。すなわち、真の前提文脈は誤ってリリースされず（真の前提コアによるリリースは0.0%）、偽の前提文脈はリリースされる（45.4%）。また、この枠組みはモデルに依存しないと主張している。