CLASP: 隠れ状態ポイズニング攻撃に対抗するハイブリッド大規模言語モデルの防御
arXiv cs.CL / 2026/3/13
📰 ニュースIdeas & Deep AnalysisTools & Practical UsageModels & Research
要点
- CLASPは、ブロック出力埋め込み(BOEs)に基づくXGBoost分類器を用いたトークンレベルの二値分類問題として緩和を定式化することで、ハイブリッドSSMベースのLLMをHidden State Poisoning Attacksから防御します。
- 実務的な履歴書スクリーニングのシナリオで高い検出性能を達成します:悪意のあるトークンに対してトークンレベルF1が95.9%、文書レベルF1が99.3%、未知の攻撃パターンへの強い一般化能力(leave-one-outクロスバリデーションで文書レベルF1が96.9%、構造的に新規なトリガー下で文書レベルF1が91.6%)です。
- CLASPは比較的少ないリソースで動作します――約1,032トークン/秒、VRAMは4 GB未満――下流のモデルに依存しない軽量な前線防御として機能します。
- 論文はリンク先のURLにコードと詳細な結果を提供しており、SSMベースおよびハイブリッドアーキテクチャに対する実用的な防御手法を示しています。
状態空間モデル(SSMs)であるMambaは、Transformersの効率的な代替として大きな注目を集めており、直線的な計算量を達成しつつ競争力のある性能を維持しています。しかし、Hidden State Poisoning Attacks(HiSPAs)は、敵対的な文字列を介してSSMのメモリを汚染する最近発見の脆弱性であり、これらのアーキテクチャおよびそれらのハイブリッド変種に重大な脅威を与えます。HiSPA対策タスクをトークンレベルの二値分類問題として定式化することで、この脅威に対抗するCLASPモデルを導入します。CLASPはMambaのブロック出力埋め込み(BOEs)に現れる特徴的なパターンを活用し、計算オーバーヘッドを最小限に抑えつつ悪意のあるトークンを識別するためにXGBoost分類器を用います。我々はSSMとHiSPAsの両方が使われる可能性が高い現実的なシナリオを考慮します:役割に最適な候補者を特定するために履歴書をスクリーニングするLLMの場面です。制御された注入を含む2,483件の履歴書、総計9.5百万トークンのコーパスで評価したところ、CLASPは悪意のあるトークン検出においてトークンレベルF1スコア95.9%、文書レベルF1スコア99.3%を達成しました。重要なのは、未知の攻撃パターンに対して一般化する点です:leave-one-outクロスバリデーションでは性能は高いまま(文書レベルF1 96.9%)、構造的に新規なトリガーを用いたクラスター型クロスバリデーションでは、有用な検出能力を維持しています(平均文書レベルF1 91.6%)。下流のモデルに依存せずに動作するCLASPは、1,032トークン/秒、VRAMは4GB未満の消費で処理し、SSMベースおよびハイブリッドアーキテクチャの現実世界での展開に適した、軽量な前線防御としての潜在性を持ちます。すべてのコードと詳細な結果は https://anonymous.4open.science/r/hispikes-91C0 に公開されています。




