RAGにおける証拠不確実性と幻覚のファセット（観点）レベル追跡

arXiv cs.CL / 2026/4/13

💬 オピニオンIdeas & Deep AnalysisModels & Research

原文を読む →

共有:

要点

本論文は、関連文書が取得されてもRAGにおける幻覚は持続すると主張し、既存の評価（回答レベルまたはパッセージレベル）は、生成中に証拠が実際にどのように用いられるかを見落としている点を指摘します。
各QA質問を原子的な「推論ファセット」に分解し、Facet×Chunk行列を用いて取得文書の関連性とNLIベースの信頼性（faithfulness）を組み合わせることで、証拠の十分性／根拠づけを測定する、ファセットレベルの診断フレームワークを提案します。
推論モードとして3つを比較します。すなわち、Strict RAG（取得のみ）、Soft RAG（取得に加えてパラメトリックな知識も使用）、LLM-only（取得なし）です。これにより、関連する証拠が取得されているにもかかわらず、それが適切に統合されない「取得と生成の不整合」を定量化します。
医療QAとHotpotQAに対して複数のLLM（GPT、Gemini、LLaMA）で実験を行い、標準的な回答レベルの指標ではほとんど見えない失敗パターンとして、証拠の欠如、証拠の不整合、そして先行知識による上書き（prior-driven overrides）のようなケースが繰り返し観測されることを示します。
結果は、RAGにおける幻覚の要因が取得の正確さというよりも、取得された証拠とモデルの先行知識との統合戦略にあることを示唆しています。提案する診断手法は、そうした統合失敗を解釈可能な形で特定・診断できるようにします。

ロボット用フィジカルAIのVLAがサブミリ精度獲得、Physical Intelligenceがオンライン強化学習で

日経XTECH

日立やNEC、フィジカルAIで脱「人月商売」／AIエージェント時代に台頭する「FDE」など、注目記事を音声化

日経XTECH

注目集める「AIエージェント」、一問一答型から自律的なシステムに

日経XTECH

新モデル「Claude Mythos」の衝撃数千の脆弱性を発見、一般公開せず

日経XTECH

「対応せざるを得ない」、Anthropicの「Mythos」に身構える日本の金融業界

日経XTECH

RAGにおける証拠不確実性と幻覚のファセット（観点）レベル追跡

要点

関連記事

ロボット用フィジカルAIのVLAがサブミリ精度獲得、Physical Intelligenceがオンライン強化学習で

日立やNEC、フィジカルAIで脱「人月商売」／AIエージェント時代に台頭する「FDE」など、注目記事を音声化

注目集める「AIエージェント」、一問一答型から自律的なシステムに

新モデル「Claude Mythos」の衝撃数千の脆弱性を発見、一般公開せず

「対応せざるを得ない」、Anthropicの「Mythos」に身構える日本の金融業界

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

ロボット用フィジカルAIのVLAがサブミリ精度獲得、Physical Intelligenceがオンライン強化学習で

日立やNEC、フィジカルAIで脱「人月商売」／AIエージェント時代に台頭する「FDE」 など、注目記事を音声化

注目集める「AIエージェント」、一問一答型から自律的なシステムに

新モデル「Claude Mythos」の衝撃 数千の脆弱性を発見、一般公開せず

「対応せざるを得ない」、Anthropicの「Mythos」に身構える日本の金融業界

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

日立やNEC、フィジカルAIで脱「人月商売」／AIエージェント時代に台頭する「FDE」など、注目記事を音声化

新モデル「Claude Mythos」の衝撃数千の脆弱性を発見、一般公開せず