偽の引用はどこで作られるのか:LLMにおけるフィールド別のハルシネーションを特定のニューロンまで追跡する
arXiv cs.AI / 2026/4/22
💬 オピニオンModels & Research
要点
- 9つのLLMを対象に、生成した参照文献108,000件を用いて偽の引用のハルシネーションを分析し、その結果、著者名フィールドが他の引用フィールドよりもモデルや設定を通じて失敗率が高いことを見いだした。
- 引用スタイル(書式)の違いは引用の正確性に測定可能な影響を与えず、推論重視の蒸留はリコールを低下させることが示された。
- フィールド別のハルシネーション信号はほぼ一般化しない:ある引用フィールドで学習したプローブは、他フィールドへはほぼ偶然レベルでしか転移しない。
- Qwen2.5-32B-Instructにおいて、ニューロン単位のCETT値に弾性ネット正則化+安定性選択を適用することで、フィールド固有のハルシネーション(FH)ニューロンの疎な集合を特定し、因果介入でその役割を確認した(これらを増幅するとハルシネーションが増え、抑制すると複数フィールドで性能が改善し、一部フィールドでは効果が大きい)。
- 外部の教師信号ではなく、モデル内部のニューロン信号だけに基づいて引用ハルシネーションを検出・低減する軽量な手法が提案されている。


