「賢く支払って、賢明に誤認させる」：マルチモーダルエージェントにおける価格制約の回避を視覚的敵対的摂動で行う

arXiv cs.CV / 2026/4/21

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

この論文は、スクリーンショットベースで価格が制約となるマルチモーダルエージェントの脆弱性を扱い、「Visual Dominance Hallucination（VDH）」として、微小な視覚的手がかりがテキスト上の価格根拠を上書きして不合理な判断を招く現象を特定した。
「PriceBlind」を提案し、CLIP系エンコーダにおけるモダリティギャップを、画像埋め込みを“低コストで価値に紐づくアンカー”へ寄せつつ画素レベルの見た目を保つ「Semantic-Decoupling Loss」により悪用するステルスなホワイトボックス敵対的攻撃を実現する。
E-ShopBenchでの評価では、PriceBlindはホワイトボックスで約80%の攻撃成功率（ASR）を達成し、簡略化した単発の座標選択手順の下では、GPT-4o、Gemini-1.5-Pro、Claude-3.5-Sonnetに対する転移でおおよそ35〜41%のASRを示した。
防御として、頑健なエンコーダや「Verify-then-Act」を用いるとASRは大きく減少するが、クリーン精度とのトレードオフが生じ得ることも示した。

要旨: 多モーダル大規模言語モデル（MLLMs）の急速な普及により、モバイルエージェントが高リスクな金融取引を実行できるようになった一方で、その敵対的頑健性は十分に検討されていません。私たちは、Visual Dominance Hallucination（VDH）を特定します。これは、知覚できない視覚的手がかりが、スクリーンショットベースで価格が制約された状況におけるテキスト上の価格根拠を上書きし、エージェントを非合理な意思決定へ導き得る現象です。私たちは、制御されたスクリーンショットベース評価のための、ステルス性のあるホワイトボックス敵対的攻撃フレームワークであるPriceBlindを提案します。PriceBlindは、CLIPベースのエンコーダにおけるモダリティギャップを、ピクセルレベルの忠実性を維持しつつ、画像埋め込みを低コストで価値に関連するアンカーと整合させるSemantic-Decoupling Lossによって悪用します。E-ShopBenchにおいて、PriceBlindはホワイトボックス評価で約80%のASRを達成します。さらに、単純化した単一ターンの座標選択プロトコルの下では、Ensemble-DI-FGSMが、GPT-4o、Gemini-1.5-Pro、Claude-3.5-Sonnetにわたっておおよそ35〜41%のASRで転移します。また、頑健なエンコーダやVerify-then-Actの防御はASRを大幅に低減することを示しますが、いくつかのクリーン精度とのトレードオフが伴います。