SALLIE: Safeguarding Against Latent Language & Image Exploits
arXiv cs.AI / 4/10/2026
💬 OpinionSignals & Early TrendsIdeas & Deep AnalysisModels & Research
Key Points
- SALLIEは、LLMとVLMが直面するテキスト/画像のジャイルブレイクやプロンプトインジェクションに対し、モダリティをまたいで同時に対処する統一型防御フレームワークとして提案されています。
- 既存の対策が性能低下や複雑な前処理、または脅威を別々に扱う問題を抱える点に対し、SALLIEはモデル内部の活性(機械的解釈可能性に基づく信号)を軽量な実行時検知として抽出します。
- 推論時は(1)残差ストリームの内部活性抽出、(2)層ごとの悪意スコアをk-NNで算出、(3)層アンサンブルで集約、という3段構えで判定を行います。
- SALLIEは標準的なトークンレベル融合パイプラインにシームレスに統合でき、アーキテクチャ改修を不要としつつ、Phi-3.5-vision-instruct、SmolVLM2、gemma-3-4b-itといったコンパクトモデルで10超のデータセットにわたって既存手法より一貫して優れると報告されています。
Related Articles

Black Hat Asia
AI Business

GLM 5.1 tops the code arena rankings for open models
Reddit r/LocalLLaMA

Big Tech firms are accelerating AI investments and integration, while regulators and companies focus on safety and responsible adoption.
Dev.to

My Bestie Built a Free MCP Server for Job Search — Here's How It Works
Dev.to
can we talk about how AI has gotten really good at lying to you?
Reddit r/artificial