RAGベースのテストシリーズ第3回：忠実性（Faithfulness）と幻覚（Hallucination）の検出

Dev.to / 2026/6/11

💬 オピニオンDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

共有:

要点

記事は、Precision@K・Recall@K・MRRが高い「完璧な」リトリーバでも、RAGシステムは誤答を出し得る理由として、LLMが取得した文脈を無視したり使い誤ったりする点を説明しています。
幻覚はリトリーバ層ではなく生成（generation）層の問題であり、モデルが文脈を無視する、部分的に使いつつ不足分を作り込む、あるいは与えられた文書と矛盾することがあると指摘しています。
RAGにおける幻覚を2種類に分けており、文脈と直接矛盾する「内因性（intrinsic）幻覚」と、文脈に存在しない情報を捏造する「外因性（extrinsic）幻覚」を例付きで示しています。
リトリーバ品質のテストとは別に、忠実性・幻覚検出のためのテスト戦略が必要だという立場を、実運用で起きる“調達（取得）だけでは見逃す失敗”を動機に論じています。

この記事の続きは原文サイトでお読みいただけます。