辞書整合型コンセプト制御によるマルチモーダルLLMの保護

arXiv cs.AI / 2026/4/13

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文では、推論時に固定モデルの活性を、変化し続ける悪意あるクエリに対して誘導(ステアリング)することで、マルチモーダルLLMを防御するための辞書整合型コンセプト制御(DACO)を提案する。
  • DACOは、400,000件超のキャプション-画像刺激から構築したキュレート済みのマルチモーダル・コンセプト辞書(DACO-400K)を用い、集約された活性から15,000のコンセプト方向を抽出する。
  • スパースオートエンコーダ(SAE)に加え、辞書整合型のスパースコーディングを用いることで、他の能力を広範に損なうことなく、安全に関わる特定のコンセプトに対してより粒度の細かい介入を可能にする。
  • この枠組みには、新しいステアリング手法が含まれており、コンセプト辞書を用いてSAEの学習を初期化し、より安全な制御のためにSAEのアトムに対する意味の自動アノテーションを行う。
  • 複数のMLLM(例:QwenVL、LLaVA、InternVL)およびベンチマーク(例:MM-SafetyBench、JailBreakV)における実験では、汎用機能を維持しつつ大幅な安全性向上が報告されている。

要旨: マルチモーダル大型言語モデル(MLLMs)は、不正なクエリによって危険な応答を引き出されうる脆弱性があることが示されている。近年の研究では、プロンプトエンジニアリング、応答分類、またはファインチューニングを用いてMLLMの安全性を改善する取り組みが行われている。にもかかわらず、これらのアプローチは、進化する不正なパターンに対してしばしば効果がなく、クエリを再実行する必要があったり、大きな計算資源を要求したりすることがある。推論時に凍結したモデルの活性を制御する「ステアリング(steering)」は、最近、柔軟で効果的な解決策として注目されている。しかし、MLLMに対する既存のステアリング手法は、通常、安全性に関する概念のごく限られた集合しか扱えない、あるいは特定の概念を他の概念に影響を与えずに調整することが難しいという課題がある。これらの課題に対処するため、本研究では、Dictionary-Aligned Concept Control(DACO)という枠組みを提案する。DACOは、厳選された概念辞書とスパース自己符号化器(Sparse Autoencoder: SAE)を用いて、MLLMの活性をきめ細かく制御できるようにする。まず、400,000件超のキャプション-画像刺激を取得し、それらの活性を概念方向へ要約することで、15,000件のマルチモーダル概念の辞書を作成する。このデータセットをDACO-400Kと名付ける。次に、この厳選した辞書をスパースコーディングによって活性へ介入するために使えることを示す。さらに、我々の辞書を用いてSAEの学習を初期化し、MLLMの防護のためにSAEのアトムの意味論を自動でアノテーションする、新しいステアリング手法を提案する。複数のMLLM(例:QwenVL、LLaVA、InternVL)を、複数の安全性ベンチマーク(例:MM-SafetyBench、JailBreakV)で評価した実験の結果、DACOは汎用的な能力を維持しつつ、MLLMの安全性を大幅に改善することが示された。