広告

因果探索とデュアルモーダル安全サブスペース射影による、視覚言語モデル内の安全でないチャネルの診断と修復

arXiv cs.CV / 2026/3/31

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、大規模視覚言語モデルにおける安全でない内部経路を診断・修復するためのフレームワークCAREを提案する。因果メディエーション分析を用いて、安全でない振る舞いの原因となるニューロンと層を特定する。
  • 安全サブスペースを、視覚モダリティとテキストモダリティの双方について一般化して学習するデュアルモーダル安全サブスペース射影手法を導入する。これは、良性の活性と悪性の活性の間の一般化固有値分解により行う。
  • 推論時には、CAREはハイブリッド融合メカニズムを伴う動的射影を適用し、視覚とテキストの補正のバランスを取る。安全でない特徴を抑制しつつ、意味的な忠実性は維持する。
  • 複数の安全性ベンチマークに関する実験で、従来の活性ステアリングやアラインメントに基づくベースラインと比べて安全性の頑健性が向上し、一般的なマルチモーダル能力の低下はないことが示される。
  • 本手法は、評価した敵対的設定以外の未知の攻撃にも良好に転移することが報告されており、より強い一般化能力を示す。

Abstract

大規模ビジョン-言語モデル(LVLMs)は、マルチモーダル理解および推論タスクにおいて目覚ましい性能を達成している一方で、その内部の安全メカニズムは不透明で、十分に制御されていません。本研究では、LVLM内の危険なチャネルを診断し修復するための包括的な枠組み(CARE)を提示します。まず、因果メディエーション分析を行い、危険な挙動を因果的に担っているニューロンおよび層を特定します。これらの知見に基づき、良性の活性と悪性の活性の間の一般化固有値分解を通じて、視覚モダリティとテキストモダリティの双方に対する汎化された安全サブスペースを学習する、デュアルモーダル安全サブスペース投影手法を導入します。推論時には、ハイブリッド融合メカニズムにより、活性をこれらの安全サブスペースへ動的に投影し、視覚的およびテキスト的な修正のバランスを適応的に調整することで、意味的な忠実性を保持しつつ危険な特徴を効果的に抑制します。複数の安全ベンチマークにおける大規模な実験の結果、当社の因果サブスペース修復フレームワークは、一般的なマルチモーダル能力を低下させることなく、安全性の堅牢性を大幅に向上させ、従来の活性ステアリングおよびアライメントベースラインを上回ることが示されました。さらに、本手法は良好な転移可能性を示し、未見の攻撃に対して防御できます。

広告