要旨: 最近の研究では、大規模言語モデル(LLM)が幻覚を起こすタイミングを確実に予測する「幻覚ニューロン」(Hニューロン)の疎な集合が見いだされている。これはフィードフォワードネットワークのニューロンのうち0.1%未満である。これらのニューロンは一般知識の質問応答で同定され、新しい評価インスタンスへも一般化することが示されている。そこで自然な次の問いとして、Hニューロンは知識ドメインをまたいで一般化するのだろうか、という点を検討する。6つのドメイン(一般QA、法務、金融、科学、道徳推論、コード脆弱性)にわたる体系的なクロスドメイン転移プロトコルと、5つのオープン重みモデル(3Bから8Bのパラメータ)を用いて調べたところ、一般化しないことが分かった。あるドメインのHニューロンで学習した分類器は、そのドメイン内ではAUROC 0.783を達成するが、別のドメインへ転移すると0.563にとどまる(差分 = 0.220、p < 0.001)。この劣化は、試したすべてのモデルで一貫していた。これらの結果は、幻覚が普遍的な神経学的特徴を持つ単一のメカニズムではなく、むしろ、問い合わせられる知識タイプに応じて異なるドメイン特化のニューロン集団が関与していることを示唆している。この発見は、ニューロン単位の幻覚検出器の導入に直接的な影響を与える。検出器は一度だけ学習して普遍的に適用するのではなく、ドメインごとにキャリブレーションする必要がある。
ハルシネーション・ニューロンは汎化するのか?LLMにおけるドメイン横断転移の証拠
arXiv cs.CL / 2026/4/23
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- いわゆる「ハルシネーション・ニューロン」(H-neurons)が、一般QAでLLMの幻覚(ハルシネーション)を予測できるだけでなく、別の知識ドメインにも転移するかを検証しました。
- 6つのドメイン(一般QA、法律、金融、科学、道徳的推論、コード脆弱性)に対して、5種類のオープンウェイトLLM(3B〜8Bパラメータ)を用いた横断転移プロトコルを実施しました。
- H-neuronsに基づく分類器はドメイン内では高い性能(AUROC 0.783)を示した一方、ドメイン外への転移では大きく低下(AUROC 0.563)し、その悪化はテストした全モデルで一貫していました。
- ハルシネーションには単一の普遍的なニューラル署名ではなく、知識タイプごとに異なるドメイン固有のニューロン集団が関与している可能性が示唆されます。
- 実務的には、ニューロンレベルのハルシネーション検出器は、万能に一度学習して適用するのではなく、ドメインごとにキャリブレーションが必要だと示しています。