要旨: 大規模言語モデル(LLMs)は頻繁に幻覚を生じさせ、知識集約的な応用における信頼性を制限します。検索強化生成(RAG)とコンフォーマル事実性は、この制限に対処する潜在的な方法として浮上してきました。RAGは回答を取得済みの証拠に基づいて根拠づけることを目指しますが、最終出力が正しいことを統計的に保証するものではありません。コンフォーマル事実性フィルタリングは、保持データで較正された閾値を用いて原子レベルの主張をスコアリングしフィルタリングすることで、分布に依存しない統計的信頼性を提供します。しかしながら、最終出力の情報量の有用性は保証されません。私たちは、生成、スコアリング、較正、ロバスト性、効率性にわたって、RAGベースのLLMに対するコンフォーマル事実性の信頼性と有用性を系統的に分析します。コンフォーマルフィルタリングの下でタスク有用性をより適切に反映する、新しい情報量を考慮した指標を提案します。3つのベンチマークと複数のモデルファミリーを横断して、次のことが分かりました。 (i) コンフォーマル・フィルタリングは、高い真実性レベルで虚無的な出力が生じるため有用性が低くなる、 (ii) コンフォーマル事実性の保証は分布のシフトや誤誘導要因には頑健ではなく、展開条件に密接に一致する較正データを必要とするという制限を浮き彫りにします、 (iii) 軽量な含意ベースの検証器は、LLMベースのモデル信頼度スコアラーに匹敵するか上回る一方で、FLOPsを100倍以上削減するだけで済みます。全体として、我々の結果は、分布シフトおよび誤誘導要因の下での事実性と情報量のトレードオフと脆弱性を露呈し、信頼性と頑健性、有用性を主要な指標とする新しいアプローチの必要性を強調し、信頼性と計算効率の両立を実現するRAGパイプラインを構築するための実用的な指針を提供します。
RAGベースの大規模言語モデルにおけるコンフォーマルファクト性は頑健か? 新規指標と体系的洞察
arXiv cs.AI / 2026/3/18
💬 オピニオン
要点
- RAGベースの大規模言語モデルにおけるコンフォーマルファクト性フィルタリングは、高いファクト性レベルにおいて有用性が低く、中身のない出力が原因で、実用的な信頼性向上を制限している。