LatentAudit:検証可能なデプロイを備えた検索拡張生成におけるリアルタイム・ホワイトボックス信忠性監視

arXiv cs.AI / 2026/4/8

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisTools & Practical UsageModels & Research

要点

  • LatentAuditは、オープンウェイトモデルの中~後半の残差ストリーム活性を用いて、回答が取得した根拠によって支持されているかを評価する、検索拡張生成(RAG)のためのホワイトボックス・リアルタイム信忠性モニタを提案する。
  • この手法は、エビデンスに整合した活性表現に対してマハラノビス距離に基づく二次ルールを計算し、補助となるジャッジモデルを用いずに、少量の保持データで単純に較正できる状態を維持する。
  • PubMedQA(Llama-3-8B)および追加のQAベンチマークでの実験により、推論オーバーヘッドが小さいにもかかわらず高いAUROC性能が示され、モニタの有効性は複数のモデルファミリにまたがって維持され、現実的な検索失敗や敵対的ストレス条件下でも効果が持続する。
  • 著者らは、アーキテクチャ変更や検索ノイズに対する頑健性を示し、監査ルールをGroth16で公開検証できることを示すと同時に、モデル重みと活性は非公開のまま保ち、16ビット固定小数点精度下でも劣化は最小限であることを示している。