フラットな事実から鋭い幻覚へ:勾配感度で頑固な誤りを検出する
arXiv cs.LG / 2026/5/5
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- この論文は、「頑固な幻覚」(LLMが自信満々に誤っているケース)に対して、従来の幻覚検出がうまく機能しないと主張しています。
- 幾何学的アプローチであるEmbedding-Perturbed Gradient Sensitivity(EPGS)を提案し、安定した事実知識と脆い暗記(memorization)を区別します。
- EPGSは入力埋め込みにガウスノイズを加え、その後に勾配の大きさがどれだけ跳ね上がるかを測定し、このスパイクをヘッセ行列スペクトルの代理指標として用います。
- 実験では、EPGSがエントロピー系および表現ベースのベースラインを大きく上回り、高い確信を伴う事実誤りの検出精度が向上することを示しています。