RAGにおける証拠不確実性と幻覚のファセット(観点)レベル追跡
arXiv cs.CL / 2026/4/13
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、関連文書が取得されてもRAGにおける幻覚は持続すると主張し、既存の評価(回答レベルまたはパッセージレベル)は、生成中に証拠が実際にどのように用いられるかを見落としている点を指摘します。
- 各QA質問を原子的な「推論ファセット」に分解し、Facet×Chunk行列を用いて取得文書の関連性とNLIベースの信頼性(faithfulness)を組み合わせることで、証拠の十分性/根拠づけを測定する、ファセットレベルの診断フレームワークを提案します。
- 推論モードとして3つを比較します。すなわち、Strict RAG(取得のみ)、Soft RAG(取得に加えてパラメトリックな知識も使用)、LLM-only(取得なし)です。これにより、関連する証拠が取得されているにもかかわらず、それが適切に統合されない「取得と生成の不整合」を定量化します。
- 医療QAとHotpotQAに対して複数のLLM(GPT、Gemini、LLaMA)で実験を行い、標準的な回答レベルの指標ではほとんど見えない失敗パターンとして、証拠の欠如、証拠の不整合、そして先行知識による上書き(prior-driven overrides)のようなケースが繰り返し観測されることを示します。
- 結果は、RAGにおける幻覚の要因が取得の正確さというよりも、取得された証拠とモデルの先行知識との統合戦略にあることを示唆しています。提案する診断手法は、そうした統合失敗を解釈可能な形で特定・診断できるようにします。
