要旨: 大規模言語モデル(LLM)は多様な自然言語処理タスクにおいて目覚ましい能力を示してきましたが、それでもなお幻覚(ハルシネーション)に影響を受けやすいという課題があります。幻覚とは、事実として誤りのある内容を生成すること、与えられた文脈に忠実でない内容を生成すること、あるいはユーザーの指示と整合しない内容を生成することを指します。私たちは、72の構成にわたって、6つの検出手法、4つのオープン重みモデル系列、3つの多様な領域を対象に、幻覚の検出と緩和を体系的に評価する包括的ベンチマーク枠組みであるHalluScanを提案します。主要な貢献は3点です。 (1) 人間の専門家による判断との間でピアソン相関r = 0.41を達成する、新しい複合指標であるHalluScore。 (2) AUROCの低下をわずか0.1%に抑えつつ、コストを2.0倍削減する適応型検出ルーティング(ADR)というインテリジェントなルーティングアルゴリズム。 (3) 誤りのエラーカスケード分解により、領域ごとに幻覚エラーの種類が大きく異なることを明らかにします。実験の結果、NLI Verificationが全体として最も高いAUROCである0.88を達成し、次点としてRAVが0.66のAUROCを達成することが分かりました。
HalluScan:命令追従型LLMにおける幻覚(ハルシネーション)を検出・緩和するための体系的ベンチマーク
arXiv cs.CL / 2026/5/5
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- この論文は、命令追従型LLMの幻覚(ハルシネーション)を検出・緩和する性能を、72件の実験設定にわたって体系的に評価するベンチマーク枠組み「HalluScan」を提案しています。
- 人手の専門家判断と相関する複合指標として「HalluScore」を導入し、Pearson相関r=0.41を達成したと報告しています。
- 「Adaptive Detection Routing(ADR)」として、評価・処理コストを2.0×削減しつつ、AUROCの低下は0.1%にとどめるルーティング手法を開発しています。
- 複数ドメインでの実験では、NLI Verificationが最良の検出性能(AUROC 0.88)を示し、RAV(AUROC 0.66)など他手法を上回りました。
- さらに、幻覚のエラー・カスケードを分解すると、幻覚のエラー種別はドメインごとに大きく異なることが分かり、ドメインを踏まえた対策の必要性を示唆しています。




