Mosaic：マルチビュー・アンサンブル最適化によるクローズドソースVLMへのマルチモーダル・ジェイルブレイク

arXiv cs.CV / 2026/4/13

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、視覚言語モデルにおけるマルチモーダルなジェイルブレイク脆弱性を分析し、攻撃の有効性が同質的（オープンソースのサロゲート／ターゲット）な設定と、異質的（サロゲート／ターゲットの不一致）な設定とで大きく異なることを見出す。これを「surrogate dependency（サロゲート依存性）」と呼ぶ。
それらの解決として、「Mosaic」を提案する。これは、クローズドソースVLMを攻撃する際に、単一のサロゲートモデルや単一の画像ビューへの過度な依存を抑えることを目的とした、マルチビュー・アンサンブル最適化フレームワークである。
Mosaicは3つのモジュールで構成される。拒否に敏感な語彙パターンを撹乱するテキスト側変換、クロップした複数ビュー間で摂動を更新するマルチビュー画像最適化、そして複数のサロゲートVLMからの最適化信号を集約するアンサンブル誘導機構である。
安全性ベンチマークでの実験では、商用のクローズドソースVLMに対して、より高い攻撃成功率（Attack Success Rate）と、安全性関連指標（平均毒性：Average Toxicity）の低減／緩和を含む最先端の結果が報告されている。

AI Business

日経XTECH

日経XTECH

日経XTECH

日経XTECH