ハルシネーション・ニューロンは汎化するのか？LLMにおけるドメイン横断転移の証拠

arXiv cs.CL / 2026/4/23

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

いわゆる「ハルシネーション・ニューロン」（H-neurons）が、一般QAでLLMの幻覚（ハルシネーション）を予測できるだけでなく、別の知識ドメインにも転移するかを検証しました。
6つのドメイン（一般QA、法律、金融、科学、道徳的推論、コード脆弱性）に対して、5種類のオープンウェイトLLM（3B〜8Bパラメータ）を用いた横断転移プロトコルを実施しました。
H-neuronsに基づく分類器はドメイン内では高い性能（AUROC 0.783）を示した一方、ドメイン外への転移では大きく低下（AUROC 0.563）し、その悪化はテストした全モデルで一貫していました。
ハルシネーションには単一の普遍的なニューラル署名ではなく、知識タイプごとに異なるドメイン固有のニューロン集団が関与している可能性が示唆されます。
実務的には、ニューロンレベルのハルシネーション検出器は、万能に一度学習して適用するのではなく、ドメインごとにキャリブレーションが必要だと示しています。

要旨: 最近の研究では、大規模言語モデル（LLM）が幻覚を起こすタイミングを確実に予測する「幻覚ニューロン」（Hニューロン）の疎な集合が見いだされている。これはフィードフォワードネットワークのニューロンのうち0.1%未満である。これらのニューロンは一般知識の質問応答で同定され、新しい評価インスタンスへも一般化することが示されている。そこで自然な次の問いとして、Hニューロンは知識ドメインをまたいで一般化するのだろうか、という点を検討する。6つのドメイン（一般QA、法務、金融、科学、道徳推論、コード脆弱性）にわたる体系的なクロスドメイン転移プロトコルと、5つのオープン重みモデル（3Bから8Bのパラメータ）を用いて調べたところ、一般化しないことが分かった。あるドメインのHニューロンで学習した分類器は、そのドメイン内ではAUROC 0.783を達成するが、別のドメインへ転移すると0.563にとどまる（差分 = 0.220、p < 0.001）。この劣化は、試したすべてのモデルで一貫していた。これらの結果は、幻覚が普遍的な神経学的特徴を持つ単一のメカニズムではなく、むしろ、問い合わせられる知識タイプに応じて異なるドメイン特化のニューロン集団が関与していることを示唆している。この発見は、ニューロン単位の幻覚検出器の導入に直接的な影響を与える。検出器は一度だけ学習して普遍的に適用するのではなく、ドメインごとにキャリブレーションする必要がある。

💡 この記事が使われたインサイト

AIの最新ニュースをまとめた「今日の要点」で、この記事が取り上げられています。

📅 4/23Dailyインサイトを見る →

反AI派の人たちは「本物の農家はトラクターなんて使わない」というノリを出していて、それがもう古い。

Dev.to

プライベートデータでChatGPTをトレーニングする：技術リファレンス

Dev.to

インテリジェント・ソフトウェアの台頭：AIが現代のプロダクト開発をどう変えているか

Dev.to

2026年のモダンAIマーケティング・カリキュラムの解剖 — 何を扱い、なぜ重要なのか

Dev.to

ファシズムの遺物としてのAI

Dev.to

ハルシネーション・ニューロンは汎化するのか？LLMにおけるドメイン横断転移の証拠

要点

💡 この記事が使われたインサイト

関連記事

反AI派の人たちは「本物の農家はトラクターなんて使わない」というノリを出していて、それがもう古い。

プライベートデータでChatGPTをトレーニングする：技術リファレンス

インテリジェント・ソフトウェアの台頭：AIが現代のプロダクト開発をどう変えているか

2026年のモダンAIマーケティング・カリキュラムの解剖 — 何を扱い、なぜ重要なのか

ファシズムの遺物としてのAI

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer