ニューラル不確実性原理(NUP):敵対的脆弱性とLLMの幻覚を統一的に捉える視点

arXiv cs.LG / 2026/3/23

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • ニューラル不確実性原理(NUP)を提案し、入力とその勾配の間にある同じ不確実性の予算から、視覚の敵対的脆弱性とLLMの幻覚が生じると説明する。
  • 近接境界領域では、追加の圧縮により感度の分散が増大する(敵対的脆弱性)、弱いプロンプト勾配結合は生成を十分に制約しきれず(幻覚が生じる)。
  • この境界は入力-勾配相関チャネルによって調整され、特定の設計を施した単一逆伝播プローブによって検出可能で、リスク信号として機能する。
  • 対敵訓練を伴わず頑健性を向上させるため、ConjMask(高寄与入力成分をマスクする手法)とLogitReg(ロジット側正則化)を提案し、プローブをデコード不要の幻覚リスク検出およびLLMのプロンプト選択に活用する。
  • 全体として、NUPは知覚と生成タスクを横断する境界異常を診断・緩和する統一的で実用的なフレームワークを提供し、堅牢なモデル設計と評価への示唆を与える。
広告