偽の引用はどこで作られるのか:LLMにおけるフィールド別のハルシネーションを特定のニューロンまで追跡する

arXiv cs.AI / 2026/4/22

💬 オピニオンModels & Research

要点

  • 9つのLLMを対象に、生成した参照文献108,000件を用いて偽の引用のハルシネーションを分析し、その結果、著者名フィールドが他の引用フィールドよりもモデルや設定を通じて失敗率が高いことを見いだした。
  • 引用スタイル(書式)の違いは引用の正確性に測定可能な影響を与えず、推論重視の蒸留はリコールを低下させることが示された。
  • フィールド別のハルシネーション信号はほぼ一般化しない:ある引用フィールドで学習したプローブは、他フィールドへはほぼ偶然レベルでしか転移しない。
  • Qwen2.5-32B-Instructにおいて、ニューロン単位のCETT値に弾性ネット正則化+安定性選択を適用することで、フィールド固有のハルシネーション(FH)ニューロンの疎な集合を特定し、因果介入でその役割を確認した(これらを増幅するとハルシネーションが増え、抑制すると複数フィールドで性能が改善し、一部フィールドでは効果が大きい)。
  • 外部の教師信号ではなく、モデル内部のニューロン信号だけに基づいて引用ハルシネーションを検出・低減する軽量な手法が提案されている。

Abstract

LLMはしばしば、根拠となる参照が誤っているにもかかわらず、高い自信を示しながらももっともらしい虚偽の引用を生成します。私たちはこの失敗を9つのモデルと108{,}000個の生成された参照にわたって調査し、その結果、著者名は他の項目よりも、すべてのモデルと設定においてはるかに高い頻度で失敗することを見出しました。引用スタイルは測定可能な影響を持たず、一方で推論志向の蒸留は再現率(recall)を低下させます。1つの項目で訓練したプローブは、他の項目へほぼ偶然に近い水準で転移し、このことから、幻覚(hallucination)のシグナルは項目間では一般化しないことが示唆されます。この発見に基づき、Qwen2.5-32B-Instructのニューロン単位のCETT値に対して、安定性選択を伴う弾性ネット正則化を適用し、領域(field)固有の幻覚ニューロン(FHニューロン)の疎な集合を特定します。因果介入はさらにその役割を裏づけます。すなわち、これらのニューロンを増幅すると幻覚が増え、抑制すると項目全体で性能が向上し、一部の項目ではより大きな改善が見られます。これらの結果は、内部モデルのシグナルのみを用いて、引用幻覚を検出し軽減するための軽量なアプローチを示唆しています。