広告

条件付きデコーディングによる堅牢なマルチモーダル・セーフティ

arXiv cs.AI / 2026/4/2

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文では、マルチモーダルLLM(MLLM)が、危険なクエリがモーダル間相互作用を悪用することで、安全アラインメントを失う可能性があると主張している。さらに、追加のモダリティを加えるとテキストのみのアラインメントが有効でなくなる。
  • そこで、CASA(Classification Augmented with Safety Attention)を提案する。これは、応答生成の前にモデル内部表現を用いて二値の安全トークンを予測する条件付きデコーディング手法である。
  • CASAは、安全注意(safety attention)モジュールを追加することで、外部の分類器、補助ヘッド、モダリティ固有の安全微調整を用いることなく、悪意のあるクエリの検出を改善する。
  • MM-SafetyBench、JailbreakV-28k、ならびに対抗的な音声テストを含むベンチマークでの実験により、CASAはモダリティおよび攻撃タイプを跨いで平均攻撃成功率を97%以上低減することが示される。
  • 本手法は良性入力に対する高い性能を維持する。自動評価に加え、13名の訓練済みアノテータによる人手評価でも、その有用性と安全性のトレードオフにおける有効性が支持されている。

Abstract

マルチモーダル大規模言語モデル(MLLMs)はしばしば、有害な質問がモーダル間の相互作用を悪用することで、安全アラインメントが低下します。テキストのみでアラインメントされたモデルは、2つ以上のモーダルに拡張すると、攻撃が成功する割合が高くなることが示されています。本研究では、応答生成の前に二値の安全トークンを予測するためにMLLMの内部表現を利用する、単純な条件付きデコーディング戦略であるCASA(Classification Augmented with Safety Attention)を提案します。悪意のある質問を検出するモデルの能力を高めることを目的とした新規の安全注意(safety attention)モジュールを導入します。提案設計は、外部の分類器や補助ヘッドに依存せず、またモーダル固有の安全微調整を必要とせずに、頑健な安全アラインメントを保証します。MM-SafetyBench、JailbreakV-28k、さらには敵対的な音声テストなどの多様なベンチマークにおいて、CASAは、モーダル間および攻撃タイプ間で平均の攻撃成功率を97%以上低下させます。さらに、実験的評価により、CASAが良性入力に対しても強い有用性を維持することが示されており、この結果は自動評価と人手評価の両方(13名の訓練済みアノテータを通じて)によって検証されています。これらの結果は、CASAがマルチモーダルLLMの安全性を改善するための、単純で一般化可能な枠組みであることを強調しています。

広告