Mosaic:マルチビュー・アンサンブル最適化によるクローズドソースVLMへのマルチモーダル・ジェイルブレイク

arXiv cs.CV / 2026/4/13

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、視覚言語モデルにおけるマルチモーダルなジェイルブレイク脆弱性を分析し、攻撃の有効性が同質的(オープンソースのサロゲート/ターゲット)な設定と、異質的(サロゲート/ターゲットの不一致)な設定とで大きく異なることを見出す。これを「surrogate dependency(サロゲート依存性)」と呼ぶ。
  • それらの解決として、「Mosaic」を提案する。これは、クローズドソースVLMを攻撃する際に、単一のサロゲートモデルや単一の画像ビューへの過度な依存を抑えることを目的とした、マルチビュー・アンサンブル最適化フレームワークである。
  • Mosaicは3つのモジュールで構成される。拒否に敏感な語彙パターンを撹乱するテキスト側変換、クロップした複数ビュー間で摂動を更新するマルチビュー画像最適化、そして複数のサロゲートVLMからの最適化信号を集約するアンサンブル誘導機構である。
  • 安全性ベンチマークでの実験では、商用のクローズドソースVLMに対して、より高い攻撃成功率(Attack Success Rate)と、安全性関連指標(平均毒性:Average Toxicity)の低減/緩和を含む最先端の結果が報告されている。