要旨: Vision-language models (VLMs) は、現実世界および具象的な設定において安全判断が視覚的文脈に依存するようになっています。しかし、これらの判断を導く視覚的証拠がどれかは依然として不明です。我々は、VLMs におけるマルチモーダル安全行動が単純な意味的手掛かりによって操られるかどうかを調べます。基盤となるシーン内容を変更することなく、制御されたテキスト、視覚、および認知介入を適用する意味的操縦フレームワークを導入します。これらの効果を評価するために、意味的手掛かりの下での状況的安全性を評価するベンチマークである SAVeS を提案し、行動拒否、根拠ある安全推論、誤拒否を分離する評価プロトコルと併せて提示します。複数の VLMs および追加の最先端ベンチマークにわたる実験は、安全判断が意味的手掛かりに高度に敏感であることを示し、現実の視覚理解に基づく推論よりも、学習済みの視覚と言語の結合に依存していることを示唆します。さらに、自動的な意味誘導パイプラインがこれらの機構を悪用できることを示し、マルチモーダル安全システムの潜在的な脆弱性を浮き彫りにします。
SAVeS: セマンティック・キューを用いた視覚-言語モデルの安全判断の誘導
arXiv cs.CL / 2026/3/20
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 視覚-言語モデルの安全判断は、現実の視覚的理解よりもセマンティックな手掛かりに大きく影響されている。
- 著者らは、基になるシーン内容を変えず、制御されたテキスト、視覚、認知介入を用いる意味的ステアリングの枠組みを導入する。
- SAVeSと評価プロトコルは、意味的手掛かりの影響を評価するために、行動拒否、根拠ある安全推論、偽の拒否を分離する。
- 複数の視覚-言語モデルに対する実験は、安全判断が学習済みの視覚-言語結びつきに依存していることを示し、自動化されたステアリング・パイプラインがこれらの脆弱性を悪用し得る。