Faithfulness-QA:文脈忠実なRAGモデルの学習のための反事実的エンティティ置換データセット

arXiv cs.CL / 2026/4/29

📰 ニュースTools & Practical UsageModels & Research

要点

  • 本論文は、RAGにおける重要な失敗モードとして、モデルが取得した文脈ではなくパラメトリックメモリから回答を生成してしまい、検索拡張の本来の価値が損なわれる問題に取り組みます。
  • Faithfulness-QAとして、99,094件の反事実的に生成されたQAサンプルを提案し、モデルが内部知識よりも与えられた文脈を優先することを促します。
  • データセットは反事実的エンティティ置換で構築されており、SQuADとTriviaQAの文脈中の固有名詞エンティティを、76,953件からなる厳選されたエンティティバンクから同型(タイプ整合)の代替に置き換えることで、文脈と内部知識の間に制御された対立を作ります。
  • 厳密な品質フィルタリングを行い、ランダムな監査サンプルで4つの自動チェックに対して100%の合格率を報告しており、学習と評価のためにデータセットや構築パイプライン、型付きエンティティバンクを公開します。
  • Faithfulness-QAは、文脈忠実性を高める目的(注意ベースなど)の学習データとして、またRAGシステムの文脈への根拠づけ(context-grounding)を測る評価ベンチマークとして利用されることを意図しています。

要旨: Retrieval-Augmented Generation(RAG)モデルは、検索された文脈ではなく、パラメトリックメモリに基づく回答を生成してしまうことがしばしばあり、検索拡張の中核となる約束を損なっています。この不忠実さ(unfaithfulness)を解決するための根本的な障害は、モデルに対して内的知識よりも文脈を優先することを明示的に要求する訓練データが欠けている点です。本研究では、反事実的なエンティティ置換(counterfactual entity substitution)によって構築された大規模データセット「Faithfulness-QA」を導入します。Faithfulness-QAは99,094サンプルから成り、2つの既存の抽出的QAベンチマーク――SQuAD と TriviaQA――を出発点として構築されます。各文脈ごとに、答えを含む固有名詞エンティティを自動的に特定し、厳選された 76,953 エンティティのバンクから型整合的な代替エンティティに置換します。これにより、文脈とパラメトリックメモリとの間で制御された知識の衝突(knowledge conflicts)を作り出します。厳密な品質フィルタリングにより、ランダムに抽出した200サンプルの監査に対する4つの自動チェックで100%の合格率を保証します。データセット全体、構築パイプライン、さらに8つの固有名詞カテゴリをカバーする型付きエンティティバンクを公開します。Faithfulness-QAは、注意ベースの忠実性(faithfulness)目的のための訓練リソースとして設計されていると同時に、RAGシステムにおける文脈への根拠付け(context-grounding)行動を測定するための評価ベンチマークとしても機能します。データとコードは https://github.com/qzhangFDU/faithfulness-qa-dataset で利用可能です。