VLMジャッジは順位付けはできるがスコアは出せない:マルチモーダル評価におけるタスク依存の不確実性

arXiv cs.LG / 2026/4/29

📰 ニュースDeveloper Stack & InfrastructureModels & Research

要点

  • 本論文は、マルチモーダルの自動審査に用いられる視覚言語モデル(VLM)の点数がどれほど信頼できるかが不明な理由を扱い、再学習なしで教師信号の点数を校正するために共形予測(conformal prediction)を提案しています。
  • VLM-as-a-Judgeに対して、スコアトークンの対数尤度のみを用いて、点数を校正された予測区間へ変換できることを示し、マルチモーダル評価の信頼性推定を可能にします。
  • 評価の不確実性はタスク依存が強く、審美(aesthetics)や自然画像では区間のカバー率が約40%なのに対し、チャートや数学的推論では約70%まで広がることが分かりました。
  • 見逃されがちな失敗モードとして「ランキングとスコアの分離(ranking–scoring decoupling)」を指摘し、正しい順序付けはできても絶対スコアの信頼性や区間の情報量が低くなり得ることを明らかにしています。
  • 予測区間の幅は主にタスクの難しさとアノテーション品質により決まり、同一のジャッジ/手法でもクリーンで複数アノテータのベンチマークでは約4.5倍狭い区間が得られます。