認知的サーキットブレーカー:内在的AI信頼性のためのシステムズエンジニアリングの枠組み

arXiv cs.AI / 2026/4/16

💬 オピニオンDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、ミッションクリティカルなLLMの信頼性が現状では、RAGのクロスチェックやLLM-as-a-judgeのような外在的でブラックボックス的な検査によって制約されており、これらはレイテンシ、計算コスト、外部API依存を追加してSLAsを破る可能性があると主張する。
  • モデルのフォワードパス中に隠れ状態を抽出することで、最小限のオーバーヘッドで内在的な信頼性モニタリングを実現する「認知的サーキットブレーカー」フレームワークを提案する。
  • 本手法は「認知的不協和デルタ」を算出し、モデルが外向きに示す意味的な確信(例:softmax確率)と、隠れ状態に対する線形プローブによって推定される内部の潜在的な確実性との差を測定する。
  • 著者らは、認知的不協和の検出が統計的に有意であることを報告し、OOD(分布外)一般化がモデルのアーキテクチャにどのように依存するかを分析し、アクティブ推論パイプラインに加わる計算コストは無視できる程度であると主張する。

要旨: 大規模言語モデル(LLM)がミッションクリティカルなソフトウェアシステムへますます導入されるにつれて、幻覚の検出や「偽の真実味」の検出は、最重要の工学課題となっています。現在の信頼性アーキテクチャは、検索拡張生成(Retrieval-Augmented Generation: RAG)のクロスチェックや、LLMを裁定者とする評価器といった、生成後の段階に依存したブラックボックス的な仕組みに大きく依存しています。これらの外因的手法は、容認できないレイテンシ、過大な計算オーバーヘッド、そしてセカンダリな外部API呼び出しへの依存をもたらし、しばしば標準的なソフトウェア工学のサービスレベル契約(SLA)に違反します。本論文では、最小限のレイテンシオーバーヘッドで固有の信頼性モニタリングを提供する、新しいシステム工学フレームワークである「Cognitive Circuit Breaker(認知的回路遮断器)」を提案します。モデルの順伝播(forward pass)中に隠れ状態を抽出することで、「Cognitive Dissonance Delta(認知的不協和デルタ)」—LLMの外向きの意味論的自信(softmax確率)と、その内部の潜在的確実性(線形プローブにより導出されるもの)の間の数学的ギャップ—を計算します。本論文では、認知的不協和の統計的に有意な検出を示し、アーキテクチャ依存の外部分布外(Out-of-Distribution: OOD)一般化を強調し、さらにこのフレームワークが能動的推論(active inference)パイプラインにほとんど無視できる計算オーバーヘッドしか追加しないことを示します。