RAGognizer:検出ヘッド統合による、幻覚に配慮したファインチューニング

arXiv cs.CL / 2026/4/20

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • この論文は、RAG(Retrieval-Augmented Generation)において、幻覚検出を事後的なチェックではなく学習の一部として扱う手法を提案しています。
  • 自然に発生したクローズド領域の幻覚を、トークン単位の注釈付きで収録した新しいデータセット(RAGognize)を導入します。
  • 軽量な検出ヘッドをLLMに統合し、言語モデリングと幻覚検出を同時に最適化できるようにします。
  • 内部表現のうち幻覚に関連するものの識別性を高めることで、トークン単位の検出精度向上と生成中の幻覚率低減の双方を狙います。
  • 複数のベンチマークで、トークン単位の幻覚検出において最先端の性能と、言語品質や関連性を損なわない形での幻覚削減が報告されています。

Abstract

検索拡張生成(Retrieval-Augmented Generation; RAG)は、最近の情報や領域特化の知識などの外部情報で、入力を大規模言語モデル(LLM)に補強するために広く用いられています。それにもかかわらず、現在のモデルは依然としてクローズドドメインの幻覚を生成し、検索された文脈に裏付けられていない内容を出力してしまいます。現在の検出アプローチは概ね、幻覚を事後的な問題として扱い、ブラックボックス的な整合性チェックや、凍結した内部表現に対するプローブに依存しています。本研究では、内部状態表現に基づく幻覚検出が、直接的な学習信号としても機能し得ることを示します。自然に発生するクローズドドメインの幻覚から成るデータセットで、トークンレベルの注釈を付与した RAGognize を導入し、さらに RAGognizer という幻覚を考慮した微調整手法を提案します。この手法では、軽量な検出ヘッドをLLMに統合し、言語モデリングと幻覚検出を同時に最適化できるようにします。この共同目的により、幻覚に関する内部状態の識別可能性を向上させると同時に、適切に構成された意味のある応答を生成することも学習させます。複数のベンチマークにおいて、RAGognizer は最先端のトークンレベルの幻覚検出を達成し、生成時の幻覚率を大幅に低減します。さらに、言語品質や関連性を損なうことはありません。