ゼロショットの二値ビジョン言語安全分類におけるプロンプト誘導スコア分散

arXiv cs.CL / 2026/5/4

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 研究では、ゼロショットのビジョン言語モデル(VLM)安全分類で単一プロンプトの先頭トークン確率を意思決定スコアとして扱う手法が信頼できないことが示されており、同じ画像でも意味的に等価なプロンプトの言い換えによって「危険」確率が大きく変わり得ます。
  • 複数のマルチモーダル安全ベンチマークおよび複数のVLMファミリーにわたって、プロンプト間の分散はプロンプト同士の不一致や分類エラーの増加と強く関連し、プロンプト脆弱性の実用的な診断指標になります。
  • 学習なしで複数プロンプトを平均化するアンサンブルは、14の全てのデータセット–モデル評価組でNLLを改善し、ECEも14のうち12で改善し、同じプロンプトに対して適用する複数の一般的な校正・スケーリング手法より優れます。
  • さらに、ラベルが利用可能な場合は平均化の上にラベル付きキャリブレーションを追加することで追加の改善が得られることが示され、ゼロショットVLMの安全スコアリングにおける標準的なラベルなし信頼性ベースラインとして「プロンプトファミリー評価+平均集約」を推奨しています。

概要: ゼロショットの視覚言語モデル(VLM)安全性分類器から得られる単一プロンプトの最初のトークン確率は、意思決定スコアとして扱われますが、意味的に等価なプロンプトの言い換えのもとでは信頼性がないことを示します。つまり、二値ラベルを固定された出力位置に制約した場合でも、等価なプロンプトは同一サンプルに対して、安全でない確率を実質的に異なるものにし得ます。マルチモーダルの安全性ベンチマークと複数のVLMファミリーにわたって、プロンプト間の分散は、プロンプトレベルの不一致および高い誤りと強く関連しており、有用な脆弱性(フラジリティ)診断指標となります。学習なしの平均アンサンブルは、14のデータセット・モデル評価ペアすべてでNLLを改善し、学習選択された単一プロンプトのベースラインに比べて12/14でECEも改善します。また、同一プロンプトに対して適用したラベル付き温度スケーリング、Plattスケーリング、アイソトニック回帰よりも、多くのヘッドツーヘッドのNLL比較で勝ちます。ランキングの改善は、AUROCおよびAUPRCの両方で、学習選択されたベースラインに対して一貫しており、15プロンプト全体の分布に対してもAUPRCでは一貫性が保たれていますが、AUROCではやや緩和されます。平均の上にラベル付きキャリブレーションを行うと、さらに改善が得られます。ラベルが利用可能な場合には、プロンプトの平均化はキャリブレーションの代替ではなく、強力なラベルフリーの第一段階であることを示します。私たちはこれを、ゼロショットVLMの最初のトークン安全性スコアに対する信頼性ストレステストとして位置づけ、平均集約によるプロンプトファミリー評価を、標準的なラベルフリーの信頼性ベースラインとして推奨します。