ERA：正直なRetrieval-Augmented Generationのためのエビデンスに基づく信頼性アラインメント

arXiv cs.AI / 2026/4/25

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、内部に学習された知識と取得（retrieve）されたエビデンスとの間で矛盾が生じる Retrieval-Augmented Generation（RAG）において、信頼性と棄権（abstention）挙動を改善するための ERA（Evidence-based Reliability Alignment）フレームワークを提案しています。
ERAは、スカラーの信頼度推定をやめて明示的なエビデンス分布に置き換え、Dirichlet分布を用いて内部知識と外部（取得）知識を独立した信念の質量としてモデル化します。
情報源同士の対立（conflict）を測り、それを最適化に活用するために、Dempster–Shafer Theory（DST）を用いて情報源間の幾何学的な不一致を定量化します。
方法としては、エピステミック不確実性とアレアトリック（データ）由来の曖昧さを切り分け、検出した知識の対立に応じて最適化目的を調整します。
標準ベンチマークと厳選した一般化データセットでの実験により、ERAが既存ベースラインを上回り、キャリブレーションの向上と「回答カバー率と棄権」のトレードオフ改善を達成したことが示されています。

要旨: 検索拡張生成（RAG）は言語モデルを事実に基づく根拠に結び付けますが、内在化されたパラメータと取得された情報の間に生じる知識の衝突という重要な課題を導入します。とはいえ、既存の信頼性手法は通常、スカラーの信頼度に依存しており、このようなハイブリッドな状況において、認識論的不確実性とデータ固有の曖昧さ（固有のデータあいまい性）を明示的に区別できていません。本論文では、ERA（Evidence-based Reliability Alignment：根拠に基づく信頼性整合）と呼ぶ新しい枠組みを提案し、信頼度推定をスカラー確率から明示的な根拠分布へと移すことで、RAGシステムにおける棄権（abstention）行動を強化します。提案手法は主に2つの構成要素から成ります。（1）ディリクレ分布を用いて、内部の知識と外部の知識を独立した信念の質量としてモデル化する、文脈に基づく根拠量化（Contextual Evidence Quantification）、および（2）デンプスター＝シェイファー理論（DST）を活用して情報源間の幾何学的な不和（discordance）を厳密に測定する、知識衝突の量化（Quantifying Knowledge Conflict）です。これらの構成要素は、認識論的不確実性とアレアトリック（偶然的）不確実性を切り分け、検出された衝突に基づいて最適化目的を調整するために用いられます。標準ベンチマークおよび厳選した一般化用データセットでの実験により、提案手法はベースラインを大きく上回り、応答の網羅性と棄権のトレードオフを、より優れたキャリブレーションによって最適化できることが示されます。