SALLIE: 潜在的な言語・画像悪用に対する安全確保
arXiv cs.AI / 2026/4/10
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- SALLIEは、LLMとVLMが直面するテキスト/画像のジェイルブレイクやプロンプトインジェクションに対し、モダリティをまたいで同時に対処する統一型防御フレームワークとして提案されています。
- 既存の対策が性能低下や複雑な前処理、または脅威を別々に扱う問題を抱える点に対し、SALLIEはモデル内部の活性(機械的解釈可能性に基づく信号)を軽量な実行時検知として抽出します。
- 推論時は(1)残差ストリームの内部活性抽出、(2)層ごとの悪意スコアをk-NNで算出、(3)層アンサンブルで集約、という3段構えで判定を行います。
- SALLIEは標準的なトークンレベル融合パイプラインにシームレスに統合でき、アーキテクチャ改修を不要としつつ、Phi-3.5-vision-instruct、SmolVLM2、gemma-3-4b-itといったコンパクトモデルで10超のデータセットにわたって既存手法より一貫して優れると報告されています。




