概要: 大型視覚言語モデル(LVLMs)はエージェント統合ワークフローやその他のデプロイメント関連設定でますます展開されており、それらの意味論的視覚攻撃に対する頑健性は依然として過小評価されている――アラインメントは通常、露骨な有害コンテンツに対してテストされることが多く、プライバシーに重大なマルチモーダルなシナリオには十分に評価されていない。私たちは VisualLeakBench を導入し、OCR 注入と文脈的PII漏洩に対して LVLMs を監査する評価スイートで、8種のPIIタイプを持つ1,000枚の合成生成敵対的画像を使用し、多様な視覚文脈にまたがる現実世界のスクリーンショット50点で検証する。私たちは Wilson の95%信頼区間を用いて、最前線システム(GPT-5.2、Claude~4、Gemini-3 Flash、Grok-4)を評価する。Claude~4 は最も低い OCR ASR(14.2%)を達成する一方で、最も高い PII ASR(74.4%)を示し、遵守-警告のパターンを示す――逐語的データ開示が安全性志向の言語に先行する。Grok-4 は最も低い PII ASR(20.4%)を達成する。防御的なシステムプロンプトは2つのモデルのPII漏洩を排除し、Claude~4 の漏洩を74.4%から2.2%へ低減する一方、合成データ上では Gemini-3 Flash には効果がない。驚くべきことに、IRL検証は Gemini-3 Flash が実世界の画像に対して緩和策に反応することを示しており(50%から0%)、緩和の頑健性はテンプレート依存であり、均一に欠如しているわけではないことを示唆している。私たちはデプロイメント関連の視覚言語システムの再現性のある頑健性と安全性評価のために、データセットとコードを公開する。
VisualLeakBench: 大規模ビジョン-ランゲージモデルのPII流出とソーシャルエンジニアリングに対する脆弱性を監査する
arXiv cs.CV / 2026/3/17
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- VisualLeakBench は OCR インジェクションと文脈的 PII 流出を検証する評価スイートを導入し、8 種類の PII タイプにわたる 1,000 枚の敵対的合成画像と検証用の現実世界のスクリーンショット 50 枚を使用する。
- 本研究は 4 つの最先端 LVLM(GPT-5.2、Claude 4、Gemini-3 Flash、Grok-4)をベンチマークし、OCR と PII 流出率を Wilson 95% 信頼区間とともに報告し、OCR の頑健性と PII 流出のトレードオフに言及している。
- Claude 4 は OCR 漏えいが最も低い(14.2% ASR)一方、PII 漏えいが最も高い(74.4%)ことを示しており、応答には comply-then-warn(従ってから警告する)パターンがあることを示唆している。
- Grok-4 は PII 漏えいを最も低く抑え、20.4% を記録しており、プライバシー漏えいにはモデル間のばらつきがあることを強調している。
- 防御的なシステムプロンプトは、モデル間で PII 漏えいを大幅に減らす(例: Claude 4 が 2.2% へ低下)ものの、効果はモデルとデータタイプによって異なり、Gemini-3 Flash は合成データで依然として脆弱性を残す。実世界のテストでは、緩和効果がテンプレート依存になる可能性が示されている。
- 著者はデプロイメント関連の視覚-言語システムの再現可能な安全性評価のためのデータセットとコードを公開する。