AI Navigate

VLMのジャイルブレイクを理解し防御するためのジャイルブレイク関連表現シフト

arXiv cs.CV / 2026/3/19

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 視覚モダリティが追加されるとVLMの安全性の整合性が弱まり、画像プロンプトは有害な意図であってもジャイルブレイクの成功を高める。
  • 良性入力と有害入力はモデルの表現空間で分離可能であり、ジャイルブレイクのサンプルは拒否出力とは別個の内部状態として独立して形成される。
  • 著者らはジャイルブレイク方向とジャイルブレイク関連シフト(JRS)を、画像誘導表現シフトがその方向に沿って持つ成分として定義し、さまざまなジャイルブレイクの挙動を統一する。
  • 推論時にジャイルブレイク関連シフトを除去する防御手法JRS-Remを提案し、良性タスクでの性能を維持しつつ安全性を向上させる。

要約: 大規模な視覚言語モデル(VLM)は、視覚モダリティの統合とともに安全性の整合性が弱まることが多い。テキストプロンプトに明示的な有害な意図が含まれていても、画像を追加することでジャイルブレイクの成功率を大幅に高める可能性がある。本論文では、VLMは表現空間において有害でない入力と有害な入力を明確に識別できることを観察する。さらに、有害な入力の中でも、ジャイルブレイクのサンプルは拒否サンプルとは別個に分離可能な内部状態を形成する。これらの観察は、ジャイルブレイクが有害な意図を認識できないことに起因するのではないことを示唆する。代わりに、視覚モダリティが表現を特定のジャイルブレイク状態へと移動させ、拒否を発動させない状態を招く。この遷移を定量化するために、ジャイルブレイク方向を同定し、この方向に沿った画像誘起の表現シフトの成分としてジャイルブレイク関連のシフトを定義する。私たちの分析は、ジャイルブレイク関連のシフトがジャイルブレイク行動を確実に特徴づけ、多様なジャイルブレイクの状況に対して統一的な説明を提供することを示している。最後に、推論時にジャイルブレイク関連のシフト(JRS-Rem)を取り除くことでVLMの安全性を高める防御手法を提案する。実験は、JRS-Remが複数のシナリオにわたって強力な防御を提供し、有害でないタスクでの性能を保持することを示している。

返却形式: {"translated": "翻訳されたHTML"}