大規模言語モデル向け:サンプルトランスフォームに基づくコスト推定のトレーニング不要な幻覚検出器

arXiv cs.AI / 2026/3/25

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、プロンプト条件付き応答から推定される分布の複雑性を用いることで、大規模言語モデル向けのトレーニング不要な幻覚検出器を提案する。
  • 2つのサンプルに対するトークン埋め込み集合間でウォッサースタイン距離(最適輸送)を計算し、変換コストを反映するウォッサースタイン距離行列を構築する。
  • 著者らは、幻覚の可能性を定量化するための補完的な2つの信号—AvgWD(平均変換コスト)とEigenWD(固有構造によるコスト複雑性)—を導出する。
  • 本手法は、アクセス可能な教師モデルを用いた「teacher forcing」アプローチにより、ブラックボックスLLM設定にも拡張する。
  • 複数のモデルおよびデータセットでの実験により、AvgWDとEigenWDは強力な不確実性ベースラインと競争力があり、補完的な挙動を示すことが確認され、「分布の複雑性」が真実性のシグナルとして機能することが支持される。

要旨: 大規模言語モデル(LLM)における幻覚は、信頼できる導入に向けて依然として中核的な障害であり、正確で軽量かつ幅広く適用可能な検出器を動機づけている。LLMがプロンプトによって条件付き分布を定めることから、分布の複雑さは幻覚の指標となると我々は主張する。しかし、分布の密度は未知であり、またサンプル(すなわち、そのプロンプトに対して生成される応答)は離散分布であるため、分布の複雑さを定量化するうえで大きな課題が生じる。我々は、ペアごとのサンプルのトークン埋め込み集合間の最適輸送距離を計算することを提案する。これにより、サンプル間を変換する際のコストを測るウォッサースタイン距離行列が得られる。このウォッサースタイン距離行列は、プロンプト付きのLLMによって定義される分布の複雑さを定量化する手段を与える。ウォッサースタイン距離行列に基づき、補完的な2つの信号、平均コストを測るAvgWDと、コストの複雑さを測るEigenWDを導出する。これにより、LLMにおける幻覚のための学習不要の検出器が得られる。さらに、アクセス可能な教師モデルを用いた教師強制(teacher forcing)により、この枠組みをブラックボックスLLMへ拡張する。実験の結果、AvgWDとEigenWDは強力な不確実性ベースラインと競合する性能を示し、モデルやデータセットをまたいで補完的な挙動を示す。これは、分布の複雑さがLLMの真実性に対する有効な信号であることを際立たせている。