分散から引力へ：Whisperモデルのスケールにまたがる幻覚のスペクトルダイナミクス

arXiv cs.AI / 2026/4/13

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、層ごとのゲインとアライメントがストレス下で変化するにつれて、深いネットワークが分散的レジームからアトラクタレジームへと相転移することを主張する「スペクトル感度定理（Spectral Sensitivity Theorem）」を提示する。
ASRにおける幻覚（hallucination）を安全上のリスクとして位置づけ、幻覚の振る舞いをスペクトル・ダイナミクス、特に活性化／注意（activation/attention）グラフの固有スペクトルがモデルのスケールに応じてどのように変化するかと結びつける。
敵対的ストレス下で、Whisperの各バリアント（Tiny〜Large-v3-Turbo）を対象にした実験は、この理論を支持し、中間的なモデルでは「構造の崩壊（Structural Disintegration）」が生じ、クロスアテンションのランクが13.4%崩壊する（報告値）ことを示す。
大規模モデルでは、著者らは「圧縮を求めるアトラクタ（Compression-Seeking Attractor）」レジームを見出す。このレジームでは、自己注意（Self-Attention）がランクを圧縮（報告値 -2.34%）し、スペクトル勾配が硬化（harden）する。その結果、音響的証拠から切り離される。
全体として本研究は、ASRトランスフォーマーにおける幻覚関連の失敗モードがスケールに応じてどのように変化し得るかを、機構的かつスペクトル的に説明する。

要旨: 大規模ASRモデルにおける幻覚は、重大な安全リスクをもたらします。本研究では、レイヤーごとの利得（gain）とアラインメント（alignment）によって支配される、分散的レジーム（信号減衰）からアトラクターレジーム（ランク1崩壊）への深層ネットワークにおける相転移を予測する extit{Spectral Sensitivity Theorem（スペクトル感度定理）} を提案します。我々は、敵対的ストレス下でのWhisperモデル（Tiny から Large-v3-Turbo）における活性化グラフの固有スペクトルを解析することで、この理論を検証します。その結果は理論的予測を裏づけます。すなわち、中間モデルでは extit{Structural Disintegration（構造的崩壊）}（レジームI）が見られ、Cross-Attentionのランクが $13.4\%$ 崩壊することが特徴です。これに対して、大規模モデルは extit{Compression-Seeking Attractor（圧縮指向のアトラクター）} 状態（レジームII）に入り、Self-Attentionが能動的にランクを圧縮します（ $-2.34\%$ ）。さらにスペクトル勾配が強化され、モデルが音響的証拠から切り離されます。