PRISM：LLMの幻覚における推論・指示追従・ソースメモリを探る

arXiv cs.CL / 2026/4/21

📰 ニュースModels & Research

共有:

要点

この論文は、出力レベルの幻覚の深刻度を測るだけでなく、LLMの生成プロセスのどこで幻覚が生じるのかを特定する統制ベンチマーク「PRISM」を提案しています。
幻覚を「知識の欠落」「知識の誤り」「推論の誤り」「指示追従の誤り」の4つの診断次元に分解し、生成段階（メモリ・指示・推論）にまたがって評価できるようにしています。
PRISMは9,448件のインスタンスを65タスクにわたって収録しており、モデル挙動のデバッグをより実行可能にする細かな段階別評価を可能にします。
24の主要なオープンソースおよび商用LLMを評価した結果、指示追従の改善がメモリ検索や推論の悪化につながるなど、次元間の一貫したトレードオフが見られました。

概要: 大規模言語モデル（LLM）は対話アシスタントから、複雑なタスクを扱えるエージェントへと進化するにつれて、ますます高リスク領域に導入されるようになってきています。しかし、既存のベンチマークは主として、混在したクエリや事後評価、出力レベルのスコアリングに依存しています。これらは幻覚の重大度を定量化するものの、生成パイプラインのどこで、なぜ幻覚が生じるのかについての洞察は限られています。そこで本研究では、幻覚の評価を診断問題として再定式化し、PRISM という制御されたベンチマークを提案します。PRISM は、幻覚を「知識の欠落」「知識の誤り」「推論の誤り」「指示追従の誤り」の4次元に切り分けます。さらに、生成の3つの段階（メモリ、指示、推論）に基づいています。PRISM は 65 タスクにまたがる 9,448 件のインスタンスを含み、きめ細かな段階を意識した診断評価をサポートします。24 の主要なオープンソースおよびプロプライエタリな LLM を評価することで、指示追従、メモリ検索、論理推論の間に一貫したトレードオフが存在することを明らかにしました。これにより、対策はしばしば特定の次元では改善する一方で、他の次元を犠牲にすることが示されます。私たちは、PRISM が LLM の幻覚の背後にある特定のメカニズムを理解するための枠組みを提供し、最終的に信頼できる大規模言語モデルの開発を加速させることを期待しています。