最初のトークンの前に:自己回帰型言語モデルにおける幻覚シグナルのスケール依存的な創発

arXiv cs.CL / 2026/4/16

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、自己回帰型言語モデルにおいて幻覚を示唆する内部表現がいつ創発するかを調べるために、7つのトランスフォーマー規模(117M〜7B)と、3つの事実ベースのデータセット(TriviaQA、Simple Facts、Biography)に対してプローブの検出可能性を分析する。
  • スケール依存の相転移が報告される。すなわち、約400Mパラメータ未満のモデルでは、生成位置のいかなる時点においても事実性プローブの性能が偶然レベルにとどまるのに対し、約1B以上のモデルでは質的に異なるレジームが現れ、生成前(最初のトークンが生成される前の位置zero)で検出可能性がピークを示す。
  • アーキテクチャをまたいだ証拠により、生成前の幻覚/事実性シグナルがPythia-1.4BとQwen2.5-7Bの両方で統計的に有意であることが示され、効果が単一のモデル系列や訓練コーパスに結び付くものではないことが示唆される。
  • 7Bスケールでは、instruction tuning(指示チューニング)とbase training(基礎学習)の違いが重要であるように見える。Pythia-6.9Bのベースモデルは時間的なプロファイルがフラットである一方、instruction-tunedのQwen2.5-7Bは生成前の効果が支配的であり、これらの「知識回路」において、知識の組織化やポストトレーニングが影響していることを示している。
  • プローブ由来の方向に沿ったアクティベーション・スティアリングでは幻覚を修正できないことが分かり、測定されたシグナルは(直接的な修正に役立つ)因果的なものではなく、(検出に役立つ)相関的なものだという結論を支持する。

要旨: 大規模言語モデルは、いつ幻覚を起こすと判断するのでしょうか?医療、法務、金融において深刻な結果をもたらすにもかかわらず、いまだ正式な答えはほとんど存在しません。近年の研究では、自己回帰モデルが事実と架空の出力を区別する内部表現を維持することが示されていますが、そのような表現がモデル規模の関数としてピークを迎えるのがいつなのかは、十分に理解されていません。
本研究では、3つの事実に基づくデータセット(TriviaQA、Simple Facts、Biography;ラベル付き例 552件)を用いて、自己回帰トランスフォーマー7モデル(117M〜7Bパラメータ)にわたる、幻覚を示唆する内部表現の時間的ダイナミクスを調べます。我々は、規模依存の相転移を特定します。すなわち、400Mパラメータ未満のモデルでは、生成位置のあらゆる箇所でプローブ精度が偶然レベルを示します(AUC = 0.48〜0.67)。これは信頼できる事実性の信号が存在しないことを示します。im1Bパラメータを超えると、質的に異なるレジームが現れます。そこでは、検出可能性のピークが位置0に現れます――いかなるトークンも生成される前、すなわち生成前――その後、生成中に低下していきます。この生成前の信号は、Pythia-1.4B(p = 0.012)およびQwen2.5-7B(p = 0.038)の両方で統計的に有意であり、異なるアーキテクチャと学習コーパスにまたがっています。
7Bスケールでは、顕著な解離が観測されます。Pythia-6.9B(基盤モデル、The Pileで学習)では時間的プロファイルがフラットです(\Delta = +0.001、p = 0.989)が、一方で、指示チューニング済みのQwen2.5-7Bは支配的に生成前の効果を示します。これは、生のスケールだけでは不十分であり、指示チューニング、または同等のポストトレーニングによる知識の組織化を通じて、生成前からコミットメント(事前コミット)的な符号化が必要であることを示しています。プローブに基づく方向に沿ったアクティベーション・ステアリングでは、全てのモデルにわたって幻覚を修正できず、得られる信号が因果的というより相関的であることが確認されます。本研究の知見は、スケールに較正された検出プロトコルを提供するとともに、事実に基づく生成を支える知識回路の発達における指示チューニングの役割に関する具体的な仮説を提示します。