HIVE:拡散型大規模言語モデルにおける幻覚検出のための隠れ証拠ベリフィケーション

arXiv cs.CL / 2026/4/30

💬 オピニオンModels & Research

要点

  • 拡散型の大規模言語モデルでは、幻覚の手がかりは最終出力だけでなく、途中の脱ノイズ(denoising)ステップでも現れ得る。
  • 本論文ではHIVEを提案し、脱ノイズ軌跡から隠れた証拠を抽出・圧縮して、最も有益なステップ層の証拠を選択し、プレフィックス埋め込みで検証用言語モデルを条件付けする。
  • HIVEは、検証モデルのログitに基づく連続的な幻覚スコアに加え、幻覚タイプ、証拠の組、短い根拠といった構造化された検証結果も出力する。
  • 2つの拡散型D-LLMと3つのQAベンチマークで、HIVEは8つの強力なベースラインを上回り、最大でAUROC 0.9236、AUPRC 0.9537を達成する。
  • アブレーション実験では、隠れ証拠の条件付け、学習された証拠選択、2ストリームの証拠表現、ステップ層埋め込みが性能向上に重要であることが示される。

概要: 拡散型大規模言語モデルは、多段階のノイズ除去によってテキストを生成します。このとき、幻覚(ハルシネーション)の兆候は最終出力だけでなく、軌跡の途中であらわれる可能性があります。既存の検出器は主に、出力の不確実性や粗いトレース統計に依存しているため、D-LLMのより豊かな隠れたダイナミクスを捉えきれないことが多いです。本研究では、HIVE(hidden-evidence verification)という、隠れた証拠を用いた検証フレームワークを提案します。これは、ノイズ除去の軌跡から圧縮された隠れた証拠を抽出し、有益なステップ層(step-layer)の証拠を選択し、選択した証拠をプレフィックス埋め込みによって検証器となる言語モデルに条件付けします。HIVEは、検証器の意思決定ロジットから得られる連続的な幻覚スコアと、幻覚タイプ、証拠ペア、短い根拠(ラショナール)を含む構造化された検証出力の両方を生成します。2つのD-LLMと3つのQAベンチマークにおいて、HIVEは一貫して8つの強力なベースラインを上回り、最大で0.9236のAUROCおよび0.9537のAUPRCを達成します。アブレーション研究により、隠れた証拠の条件付け、学習された証拠選択、ツーストリームの証拠表現、ステップ層の埋め込みの重要性がさらに確認されます。これらの結果は、ノイズ除去軌跡から選択された隠れた証拠が、出力のみの不確実性や粗いトレース統計よりも、より強力でより使いやすい幻覚のシグナルを提供することを示唆しています。