因果探索とデュアルモーダル安全サブスペース射影による、視覚言語モデル内の安全でないチャネルの診断と修復
arXiv cs.CV / 2026/3/31
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、大規模視覚言語モデルにおける安全でない内部経路を診断・修復するためのフレームワークCAREを提案する。因果メディエーション分析を用いて、安全でない振る舞いの原因となるニューロンと層を特定する。
- 安全サブスペースを、視覚モダリティとテキストモダリティの双方について一般化して学習するデュアルモーダル安全サブスペース射影手法を導入する。これは、良性の活性と悪性の活性の間の一般化固有値分解により行う。
- 推論時には、CAREはハイブリッド融合メカニズムを伴う動的射影を適用し、視覚とテキストの補正のバランスを取る。安全でない特徴を抑制しつつ、意味的な忠実性は維持する。
- 複数の安全性ベンチマークに関する実験で、従来の活性ステアリングやアラインメントに基づくベースラインと比べて安全性の頑健性が向上し、一般的なマルチモーダル能力の低下はないことが示される。
- 本手法は、評価した敵対的設定以外の未知の攻撃にも良好に転移することが報告されており、より強い一般化能力を示す。


