RAGにおける幻覚検出のための階層的検証によるレトロモルフィック・テスティング

arXiv cs.CL / 2026/3/31

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、検索拡張生成（RAG）における幻覚を、文脈の真実性を取得した証拠に照合して評価することで検出する、レトロモルフィック・テスティングの枠組みRT4CHARTを提案する。
RT4CHARTは、LLMの出力を独立に検証可能な主張（claim）へ分解し、階層的なローカルからグローバルへの検証を用いて、各主張を「含意される（entailed）」「反駁される（contradicted）」「根拠なし（baseless）」のいずれかにラベル付けする。
主張レベルの判断を回答中の特定のスパンへ対応付け、文脈から明示的な裏付けまたは反証となる証拠を取得することで、きめ細かく解釈可能な監査結果を生成する。
RAGTruth++および新たに再アノテーションしたRAGTruth-Enhanceベンチマークでの実験では、大きな改善が示されており、回答レベルの幻覚検出F1がRAGTruth++で0.776、スパンレベルのF1がRAGTruth-Enhanceで47.5%となっている。
著者らの再アノテーションでは、従来のラベリングよりも幻覚事例が1.68倍多く見つかっており、既存ベンチマークが幻覚の発生頻度を過小評価している可能性があることを示唆し、より信頼性の高い評価データセットの必要性につながっている。

Abstract

大規模言語モデル（LLM）は、検索拡張生成（RAG）においても幻覚を起こし続けており、取得した文脈によって支持されない、または矛盾する主張を生成します。取得した文脈のみに基づいて忠実性を評価する場合、この種の誤りの検出は依然として困難です。既存の手法は、粗い粒度の回答レベルのスコアを提示するか、あるいはオープンドメインの事実性に焦点を当てることが多く、細かな粒度で、証拠に根ざした診断を欠いている場合がしばしばあります。本研究では、文脈忠実性評価のためのレトロモルフィック・テストフレームワークであるRT4CHARTを提示します。RT4CHARTは、モデルの出力を独立して検証可能な主張に分解し、取得した文脈に対して階層的な検証（ローカルからグローバルへ）を行います。各主張には、次の3つのラベルのいずれかを割り当てます：entails（帰結する）、contradicted（矛盾する）、baseless（根拠なし）。さらにRT4CHARTは、主張レベルでの判断を特定の回答範囲（answer spans）に対応付け、文脈から明示的な支持または反証となる証拠を取得することで、きめ細かく解釈可能な監査を可能にします。 RT4CHARTを、RAGTruth++（408サンプル）およびRAGTruth-Enhance（2,675サンプル）で評価します。RAGTruth-Enhanceは新たに再アノテーションされたベンチマークです。RT4CHARTは、すべてのベースラインの中で、回答レベルの幻覚検出における最良のF1を達成します。RAGTruth++では、F1スコア0.776を記録し、最強のベースラインを83%上回ります。RAGTruth-Enhanceでは、範囲レベルのF1が47.5%になります。アブレーション研究により、階層的検証設計が性能向上の主な要因であることが示されます。最後に、再アノテーションにより、元のラベルよりも1.68倍多い幻覚事例が明らかになり、既存のベンチマークが幻覚の実在頻度を大幅に過小評価していることが示唆されます。