大規模言語モデルにおける逐次的な内部分散からの不確実性学習

arXiv cs.CL / 2026/4/20

📰 ニュースDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

要点

  • 本論文はSIVR(Sequential Internal Variance Representation)という、LLMの幻覚(ハルシネーション)を教師ありで検出する枠組みを提案し、不確実性を層をまたいだ内部表現の分散・分散度(dispersion/variance)から推定します。
  • 従来手法が隠れ状態の変化の形に関する厳密な仮定に依存したり、最後のトークンや平均トークンだけに頼って情報損失を招いたりするのに対し、SIVRはトークンごとの・層ごとの特徴を用いてより豊かな不確実性の手がかりを捉えます。
  • SIVRはトークンごとの分散特徴の系列全体を集約することで、事実誤りに結びつく時間的パターンを学習できるようにします。
  • 実験では幻覚検出においてSIVRが強力なベースラインを一貫して上回り、汎化性能が向上するとともに大規模な学習データへの依存が小さいことが示されています。
  • 著者らはオンラインでコードを公開しており、実運用での活用を後押ししています(https://github.com/ponhvoan/internal-variance)。