Reason and Verify: 忠実な検索強化生成のためのフレームワーク
arXiv cs.CL / 2026/3/12
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文は、ハイリスクの生物医学QAにおける事実性を向上させるために、明示的な推論と忠実性検証を追加したドメイン特化のRetrieval-Augmented Generation(RAG)フレームワークを提案する。
- このアーキテクチャは、標準的な検索をニューラルクエリ書き換え、BGEベースのクロスエンコーダーリランキング、そしてサブ主張を特定の証拠スパンに結びつける推論根拠生成モジュールで拡張する。
- 推論の忠実性を細かく評価するための8カテゴリの検証分類体系を導入し、明示的サポートと暗黙的サポートのパターンを区別して構造化された誤り診断を可能にする。
- BioASQとPubMedQA の実験結果は、明示的な推論根拠生成が vanilla RAG より精度を向上させ、動的デモンストレーション選択と堅牢なリランキングが、Llama-3-8B-Instruct を用いた制約付きトークン予算下で更なる向上をもたらすことを示す(89.1% BioASQ-Y/N、73.0% PubMedQA)。
- 人間の専門家評価とLLMベースの検証を組み合わせたパイロット研究は、透明性の向上を示し、生物医療の質問応答における検索失敗のより詳細な診断を可能にする。
要旨: Retrieval-Augmented Generation (RAG) は大規模言語モデル(LLMs)の事実性を大幅に向上させるが、標準的なパイプラインには中間推論を検証する仕組みが欠けており、高リスク領域での幻覚に脆弱である。これに対処するため、明示的な推論と忠実性検証を統合したドメイン特化のRAGフレームワークを提案する。私たちのアーキテクチャは、標準的な検索をニューラルクエリの書き換え、BGEベースのクロスエンコーダーリランキング、そしてサブ主張を特定の証拠スパンに根拠づける推論根拠生成モジュールで拡張する。さらに、推論根拠の忠実性を細かく評価できる8カテゴリの検証分類体系を導入し、明示的サポートと暗黙的サポートのパターンを区別して、構造化された誤り診断を促進する。我々はこのフレームワークをBioASQとPubMedQAのベンチマークで評価し、特に動的な文脈内学習と、トークン予算が制約された場合のリランキングの影響を分析する。実験は、明示的な推論根拠生成がベースラインのRAGよりも精度を向上させることを示し、動的デモンストレーション選択と堅牢なリランキングを組み合わせると、少数ショット設定でさらなる利得を生む。Llama-3-8B-Instruct を用いることで、BioASQ-Y/N で 89.1%、PubMedQA で 73.0% を達成し、はるかに大きなモデルを使用するシステムと競合する。さらに、専門家の評価とLLMベースの検証を組み合わせたパイロット研究を実施し、明示的な推論根拠生成がシステムの透明性を高め、生物医療の質問応答における検索失敗のより詳しい診断を可能にすることを検証する。