SALLIE: 潜在的な言語・画像悪用に対する安全確保

arXiv cs.AI / 2026/4/10

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • SALLIEは、LLMとVLMが直面するテキスト/画像のジェイルブレイクやプロンプトインジェクションに対し、モダリティをまたいで同時に対処する統一型防御フレームワークとして提案されています。
  • 既存の対策が性能低下や複雑な前処理、または脅威を別々に扱う問題を抱える点に対し、SALLIEはモデル内部の活性(機械的解釈可能性に基づく信号)を軽量な実行時検知として抽出します。
  • 推論時は(1)残差ストリームの内部活性抽出、(2)層ごとの悪意スコアをk-NNで算出、(3)層アンサンブルで集約、という3段構えで判定を行います。
  • SALLIEは標準的なトークンレベル融合パイプラインにシームレスに統合でき、アーキテクチャ改修を不要としつつ、Phi-3.5-vision-instruct、SmolVLM2、gemma-3-4b-itといったコンパクトモデルで10超のデータセットにわたって既存手法より一貫して優れると報告されています。

Abstract

大規模言語モデル(LLM)および視覚言語モデル(VLM)は、テキストおよび視覚に対するジャイルブレイク、ならびにプロンプトインジェクション(arXiv:2307.15043, Greshake et al., 2023, arXiv:2306.13213)に対して、依然として高い脆弱性を抱えています。既存の防御策は、複雑な入力変換によって性能を低下させることが多かったり、マルチモーダルの脅威をそれぞれ孤立した問題として扱ったりします(arXiv:2309.00614, arXiv:2310.03684, Zhang et al., 2025)。テキスト脅威と視覚脅威の両方を同時に、かつ性能を劣化させることなく、アーキテクチャの変更を要さない統一的でモーダル非依存の防御に対する重要なギャップに取り組むため、我々は軽量なランタイム検出フレームワークSALLIE(Safeguarding Against Latent Language & Image Exploits)を導入します。SALLIEは、メカニスティック解釈可能性(Lindsey et al., 2025, Ameisen et al., 2025)に基づいています。SALLIEは、標準的なトークン単位の融合パイプライン(arXiv:2306.13549)にシームレスに統合され、モデル内部の活性化から直接頑健なシグナルを抽出します。推論時に、SALLIEは三段階のアーキテクチャで防御します:(1)内部残差ストリームの活性化を抽出する、(2)k-NN(K近傍法)分類器を用いて層ごとの悪意スコアを計算する、(3)層アンサンブルモジュールによってこれらの予測を集約する。 我々は、実運用に向けた推論時間と現場での導入コストを考慮して、コンパクトなオープンソース・アーキテクチャ上でSALLIEを評価します:Phi-3.5-vision-instruct(arXiv:2404.14219)、SmolVLM2-2.2B-Instruct(arXiv:2504.05299)、およびgemma-3-4b-it(arXiv:2503.19786)です。包括的な評価パイプラインは10を超えるデータセットにまたがり、文献中の5つ以上の強力なベースライン手法を含みます。そしてSALLIEは、多様な実験設定において一貫してこれらのベースラインを上回ります。