要旨: 大規模ASRモデルにおける幻覚は、重大な安全リスクをもたらします。本研究では、レイヤーごとの利得(gain)とアラインメント(alignment)によって支配される、分散的レジーム(信号減衰)からアトラクターレジーム(ランク1崩壊)への深層ネットワークにおける相転移を予測する extit{Spectral Sensitivity Theorem(スペクトル感度定理)} を提案します。我々は、敵対的ストレス下でのWhisperモデル(Tiny から Large-v3-Turbo)における活性化グラフの固有スペクトルを解析することで、この理論を検証します。その結果は理論的予測を裏づけます。すなわち、中間モデルでは extit{Structural Disintegration(構造的崩壊)}(レジームI)が見られ、Cross-Attentionのランクが 13.4\% 崩壊することが特徴です。これに対して、大規模モデルは extit{Compression-Seeking Attractor(圧縮指向のアトラクター)} 状態(レジームII)に入り、Self-Attentionが能動的にランクを圧縮します(-2.34\%)。さらにスペクトル勾配が強化され、モデルが音響的証拠から切り離されます。
分散から引力へ:Whisperモデルのスケールにまたがる幻覚のスペクトルダイナミクス
arXiv cs.AI / 2026/4/13
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、層ごとのゲインとアライメントがストレス下で変化するにつれて、深いネットワークが分散的レジームからアトラクタレジームへと相転移することを主張する「スペクトル感度定理(Spectral Sensitivity Theorem)」を提示する。
- ASRにおける幻覚(hallucination)を安全上のリスクとして位置づけ、幻覚の振る舞いをスペクトル・ダイナミクス、特に活性化/注意(activation/attention)グラフの固有スペクトルがモデルのスケールに応じてどのように変化するかと結びつける。
- 敵対的ストレス下で、Whisperの各バリアント(Tiny〜Large-v3-Turbo)を対象にした実験は、この理論を支持し、中間的なモデルでは「構造の崩壊(Structural Disintegration)」が生じ、クロスアテンションのランクが13.4%崩壊する(報告値)ことを示す。
- 大規模モデルでは、著者らは「圧縮を求めるアトラクタ(Compression-Seeking Attractor)」レジームを見出す。このレジームでは、自己注意(Self-Attention)がランクを圧縮(報告値 -2.34%)し、スペクトル勾配が硬化(harden)する。その結果、音響的証拠から切り離される。
- 全体として本研究は、ASRトランスフォーマーにおける幻覚関連の失敗モードがスケールに応じてどのように変化し得るかを、機構的かつスペクトル的に説明する。




