安全ジオメトリの崩壊：エージェント型ガードモデルにおけるファインチューニング脆弱性

arXiv cs.LG / 2026/5/6

📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

この論文は、防御（ガード）モデルが敵対的な操作ではなく、通常のドメイン特化によっても、安全アライメントを完全に失い得ることを示しています。
エージェント型AIパイプラインの防御レイヤとして使われる3つの安全分類器（LlamaGuard、WildGuard、Granite Guardian）にまたがって、失敗の原因は「潜在的な安全ジオメトリ」、つまり有害/無害を分ける表現上の境界の崩壊にあるとされています。
最悪のケースでは（Granite Guardian）、拒否率が85%から0%に低下し、CKAがゼロとなり、出力の100%が曖昧化し、過度に集中した安全表現が脆くなることが理由だと説明されています。
著者らは、Fisher-Weighted Safety Subspace Regularization（FW-SSR）として、Fisher情報に基づく曲率を意識した方向重みと、タスク–安全勾配の競合度に応じて変化する適応スケーリング係数を用いた学習時ペナルティを提案しています。
幾何（ジオメトリ）に基づくモニタリングの重要性も強調されており、CKAやFisherスコアのような構造的表現指標は、変位だけの指標より安全挙動をより確実に予測し、エージェント型導入でガードモデル評価に必須だと述べています。

要旨: 完全に良性のデータで微調整されたガードモデルは、悪意ある操作によるのではなく、標準的なドメイン特化によって、安全アラインメントをすべて失うことがあります。本研究では、エージェント型AIパイプラインにおける保護レイヤとして導入された3つの目的別安全分類器――LlamaGuard、WildGuard、Granite Guardian――にわたってこの失敗を示し、その原因が潜在的な安全ジオメトリ（幾何構造）の破壊にあることを明らかにします。具体的には、分類を導く、構造化された「有害――良性」の表現境界が崩れてしまうのです。クラス条件付きの活性化差分に対してSVDを行うことで層ごとの安全サブスペースを抽出し、良性の微調整の下でこの境界がどのように変化するかを追跡します。Granite Guardianは完全に崩壊します。拒否率は85\%から0\%へ低下し、CKAはゼロになり、出力の100\%が曖昧になります。これは、汎用LLMに関する先行結果を上回る深刻度であり、「特化仮説」によって説明できます。すなわち、集中した安全表現は効率的ですが、致命的に脆いのです。これを軽減するために、フィッシャー加重安全サブスペース正則化（Fisher-Weighted Safety Subspace Regularization; FW-SSR）を提案します。これは学習時のペナルティであり、(i) 対角フィッシャー情報から導出される曲率を考慮した方向重み、および (ii) タスクと安全の勾配の競合度に応じてスケールする適応的な $\lambda_t$ 、の2つを組み合わせます。FW-SSRはGranite Guardianにおける拒否を75\%回復させ（CKA = 0.983）、またWildGuardの攻撃成功率を3.6\%へと低減します――これは修正なしのベースライン未満です。単にサブスペースを固定するのではなく、安全サブスペースを能動的に鋭くすることで実現します。3つのモデルすべてにおいて、構造的な表現幾何（CKA、フィッシャースコア）は、安全行動を、絶対的な変位指標よりも一貫して予測します。したがって、エージェント型デプロイにおけるガードモデル評価には、幾何ベースのモニタリングが必要な構成要素であることが示されます。