RAGにおける幻覚検出のための階層的検証によるレトロモルフィック・テスティング
arXiv cs.CL / 2026/3/31
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、検索拡張生成(RAG)における幻覚を、文脈の真実性を取得した証拠に照合して評価することで検出する、レトロモルフィック・テスティングの枠組みRT4CHARTを提案する。
- RT4CHARTは、LLMの出力を独立に検証可能な主張(claim)へ分解し、階層的なローカルからグローバルへの検証を用いて、各主張を「含意される(entailed)」「反駁される(contradicted)」「根拠なし(baseless)」のいずれかにラベル付けする。
- 主張レベルの判断を回答中の特定のスパンへ対応付け、文脈から明示的な裏付けまたは反証となる証拠を取得することで、きめ細かく解釈可能な監査結果を生成する。
- RAGTruth++および新たに再アノテーションしたRAGTruth-Enhanceベンチマークでの実験では、大きな改善が示されており、回答レベルの幻覚検出F1がRAGTruth++で0.776、スパンレベルのF1がRAGTruth-Enhanceで47.5%となっている。
- 著者らの再アノテーションでは、従来のラベリングよりも幻覚事例が1.68倍多く見つかっており、既存ベンチマークが幻覚の発生頻度を過小評価している可能性があることを示唆し、より信頼性の高い評価データセットの必要性につながっている。




