概要: 状態空間モデル(SSM)は、Mamba のように入力依存の再帰を通じて線形時間のシーケンス処理を実現しますが、この機構には重大な安全性の脆弱性をもたらします。
離散化された遷移演算子のスペクトル半径 rho(A-bar) が実効的なメモリの地平線を支配することを示します:
敵対者が勾配ベースの隠れ状態汚染により rho をゼロへ近づけると、記憶は何百万ものトークンからわずか数十へと崩壊し、推論能力を静かに破壊して出力レベルの警告を引き起こさない。
任意の出力のみの防御に対して、スペクトル崩壊を同時に誘発し検知を回避する敵対的入力が存在することを示す「回避の存在定理」を証明し、次にすべてのモデル層にわたるスペクトル安定性をリアルタイムに監視するモニター SpectralGuard を導入します。
SpectralGuard は非適応攻撃者に対して F1=0.961 を達成し、最も強い適応設定でも F1=0.842 を維持し、トークンあたりの遅延は 15ミリ秒未満です。
因果的介入とハイブリッド SSM-アテンション系へのアーキテクチャ横断移行は、スペクトルモニタリングが再帰的基盤モデルに対して原理的で導入可能な安全レイヤーを提供することを確認します。
SpectralGuard: 状態空間モデルにおけるメモリ崩壊攻撃の検出
arXiv cs.LG / 2026/3/16
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文は、状態空間モデルにおいて、離散化された遷移演算子のスペクトル半径が実効的なメモリのホライズンを支配することを示すとともに、攻撃者が勾配ベースの隠れ状態ポイズニングによってそれをゼロ近くへ導き、メモリを数百万トークンから数十トークンへと崩壊させ、出力レベルの警告を引き起こさずに済む。- 出力のみの防御に対しても、スペクトル崩壊を生じ検出を回避できる敵対的入力が存在することを示す「回避存在定理」を証明する。- SpectralGuardはリアルタイムモニターとして、全モデル層に跨るスペクトル安定性を追跡し、非適応な攻撃者に対してF1スコア0.961、最強の適応設定では0.842を達成し、1トークンあたりのレイテンシは15 ms未満を実現する。- 結果には因果介入と、ハイブリッドSSM-アテンション系へのアーキテクチャ間の移植が含まれ、スペクトル監視が再帰型基盤モデルに対して原理的で導入可能な安全層を提供することを確認している。




