偽の引用はどこで作られるのか：LLMにおけるフィールド別のハルシネーションを特定のニューロンまで追跡する

arXiv cs.AI / 2026/4/22

💬 オピニオンModels & Research

共有:

要点

9つのLLMを対象に、生成した参照文献108,000件を用いて偽の引用のハルシネーションを分析し、その結果、著者名フィールドが他の引用フィールドよりもモデルや設定を通じて失敗率が高いことを見いだした。
引用スタイル（書式）の違いは引用の正確性に測定可能な影響を与えず、推論重視の蒸留はリコールを低下させることが示された。
フィールド別のハルシネーション信号はほぼ一般化しない：ある引用フィールドで学習したプローブは、他フィールドへはほぼ偶然レベルでしか転移しない。
Qwen2.5-32B-Instructにおいて、ニューロン単位のCETT値に弾性ネット正則化＋安定性選択を適用することで、フィールド固有のハルシネーション（FH）ニューロンの疎な集合を特定し、因果介入でその役割を確認した（これらを増幅するとハルシネーションが増え、抑制すると複数フィールドで性能が改善し、一部フィールドでは効果が大きい）。
外部の教師信号ではなく、モデル内部のニューロン信号だけに基づいて引用ハルシネーションを検出・低減する軽量な手法が提案されている。

Abstract

LLMはしばしば、根拠となる参照が誤っているにもかかわらず、高い自信を示しながらももっともらしい虚偽の引用を生成します。私たちはこの失敗を9つのモデルと108{,}000個の生成された参照にわたって調査し、その結果、著者名は他の項目よりも、すべてのモデルと設定においてはるかに高い頻度で失敗することを見出しました。引用スタイルは測定可能な影響を持たず、一方で推論志向の蒸留は再現率（recall）を低下させます。1つの項目で訓練したプローブは、他の項目へほぼ偶然に近い水準で転移し、このことから、幻覚（hallucination）のシグナルは項目間では一般化しないことが示唆されます。この発見に基づき、Qwen2.5-32B-Instructのニューロン単位のCETT値に対して、安定性選択を伴う弾性ネット正則化を適用し、領域（field）固有の幻覚ニューロン（FHニューロン）の疎な集合を特定します。因果介入はさらにその役割を裏づけます。すなわち、これらのニューロンを増幅すると幻覚が増え、抑制すると項目全体で性能が向上し、一部の項目ではより大きな改善が見られます。これらの結果は、内部モデルのシグナルのみを用いて、引用幻覚を検出し軽減するための軽量なアプローチを示唆しています。

#2 : プロンプト研究講座【第22回】AI画像の連続性・一貫性の維持

note

ソニーAI、高速・高精度なフィジカルAI 卓球ロボでプロ選手並みに

日経XTECH

OpenAI「Privacy Filter」、ローカル実行可能なPII検出モデルを公開

Innovatopia

人類の統制とチェック＆バランスを備えたAGIガバナンス「Gabriel Model」の構想

Reddit r/artificial

DeepSeek V4 Flash と Non-Flash が Hugging Face に登場

Reddit r/LocalLLaMA

偽の引用はどこで作られるのか：LLMにおけるフィールド別のハルシネーションを特定のニューロンまで追跡する

要点

Abstract

関連記事

#2 : プロンプト研究講座【第22回】AI画像の連続性・一貫性の維持

ソニーAI、高速・高精度なフィジカルAI 卓球ロボでプロ選手並みに

OpenAI「Privacy Filter」、ローカル実行可能なPII検出モデルを公開

人類の統制とチェック＆バランスを備えたAGIガバナンス「Gabriel Model」の構想

DeepSeek V4 Flash と Non-Flash が Hugging Face に登場

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer