条件付きデコーディングによる堅牢なマルチモーダル・セーフティ
arXiv cs.AI / 2026/4/2
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文では、マルチモーダルLLM(MLLM)が、危険なクエリがモーダル間相互作用を悪用することで、安全アラインメントを失う可能性があると主張している。さらに、追加のモダリティを加えるとテキストのみのアラインメントが有効でなくなる。
- そこで、CASA(Classification Augmented with Safety Attention)を提案する。これは、応答生成の前にモデル内部表現を用いて二値の安全トークンを予測する条件付きデコーディング手法である。
- CASAは、安全注意(safety attention)モジュールを追加することで、外部の分類器、補助ヘッド、モダリティ固有の安全微調整を用いることなく、悪意のあるクエリの検出を改善する。
- MM-SafetyBench、JailbreakV-28k、ならびに対抗的な音声テストを含むベンチマークでの実験により、CASAはモダリティおよび攻撃タイプを跨いで平均攻撃成功率を97%以上低減することが示される。
- 本手法は良性入力に対する高い性能を維持する。自動評価に加え、13名の訓練済みアノテータによる人手評価でも、その有用性と安全性のトレードオフにおける有効性が支持されている。