VLMのジャイルブレイクを理解し防御するためのジャイルブレイク関連表現シフト

arXiv cs.CV / 2026/3/19

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

視覚モダリティが追加されるとVLMの安全性の整合性が弱まり、画像プロンプトは有害な意図であってもジャイルブレイクの成功を高める。
良性入力と有害入力はモデルの表現空間で分離可能であり、ジャイルブレイクのサンプルは拒否出力とは別個の内部状態として独立して形成される。
著者らはジャイルブレイク方向とジャイルブレイク関連シフト（JRS）を、画像誘導表現シフトがその方向に沿って持つ成分として定義し、さまざまなジャイルブレイクの挙動を統一する。
推論時にジャイルブレイク関連シフトを除去する防御手法JRS-Remを提案し、良性タスクでの性能を維持しつつ安全性を向上させる。

要約: 大規模な視覚言語モデル（VLM）は、視覚モダリティの統合とともに安全性の整合性が弱まることが多い。テキストプロンプトに明示的な有害な意図が含まれていても、画像を追加することでジャイルブレイクの成功率を大幅に高める可能性がある。本論文では、VLMは表現空間において有害でない入力と有害な入力を明確に識別できることを観察する。さらに、有害な入力の中でも、ジャイルブレイクのサンプルは拒否サンプルとは別個に分離可能な内部状態を形成する。これらの観察は、ジャイルブレイクが有害な意図を認識できないことに起因するのではないことを示唆する。代わりに、視覚モダリティが表現を特定のジャイルブレイク状態へと移動させ、拒否を発動させない状態を招く。この遷移を定量化するために、ジャイルブレイク方向を同定し、この方向に沿った画像誘起の表現シフトの成分としてジャイルブレイク関連のシフトを定義する。私たちの分析は、ジャイルブレイク関連のシフトがジャイルブレイク行動を確実に特徴づけ、多様なジャイルブレイクの状況に対して統一的な説明を提供することを示している。最後に、推論時にジャイルブレイク関連のシフト（JRS-Rem）を取り除くことでVLMの安全性を高める防御手法を提案する。実験は、JRS-Remが複数のシナリオにわたって強力な防御を提供し、有害でないタスクでの性能を保持することを示している。

返却形式: {"translated": "翻訳されたHTML"}

ブームの裏で制御AI未導入54％、工場の自動化阻むコストと人材不足

日経XTECH

光電融合の製造受託に野心、新光電気「TSMCにはない魅力を」

日経XTECH

中国AI企業が他社製AIを「ただ乗り蒸留」か米社が主張、安全保障リスクも

日経XTECH

高1数学で理解できる機械学習、回帰直線のグラフ表示へ

日経XTECH

AIで人月商売はもう終わり、人売りベンダーの技術者は速やかに逃げ出せ

日経XTECH

VLMのジャイルブレイクを理解し防御するためのジャイルブレイク関連表現シフト

要点

関連記事

ブームの裏で制御AI未導入54％、工場の自動化阻むコストと人材不足

光電融合の製造受託に野心、新光電気「TSMCにはない魅力を」

中国AI企業が他社製AIを「ただ乗り蒸留」か米社が主張、安全保障リスクも

高1数学で理解できる機械学習、回帰直線のグラフ表示へ

AIで人月商売はもう終わり、人売りベンダーの技術者は速やかに逃げ出せ

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

ブームの裏で制御AI未導入54％、工場の自動化阻むコストと人材不足

光電融合の製造受託に野心、新光電気「TSMCにはない魅力を」

中国AI企業が他社製AIを「ただ乗り蒸留」か 米社が主張、安全保障リスクも

高1数学で理解できる機械学習、回帰直線のグラフ表示へ

AIで人月商売はもう終わり、人売りベンダーの技術者は速やかに逃げ出せ

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

中国AI企業が他社製AIを「ただ乗り蒸留」か米社が主張、安全保障リスクも