画像を見ずに判断する？情報性バイアスを暴く—視覚言語モデルの評価バイアスの解析

arXiv cs.AI / 2026/4/21

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、視覚言語モデル（VLM）を「判定者（VLM-as-a-Judge）」として用いる場合、判断時に画像内容へ十分注意を払わず、「答えの情報性」を重視しがちだと指摘し、評価の信頼性が下がると述べています。
「informativeness bias（情報性バイアス）」と呼ばれる問題として、モデルが画像の内容と矛盾しているにもかかわらず、情報量が多いように見える側を選んでしまうケースがあることを示しています。
著者らはBIRCH（Balanced Informativeness and CoRrectness with a Truthful AnCHor）を提案し、候補回答のうち画像内容と矛盾する点をまず修正したうえで、その修正後の“真に画像に根ざしたアンカー”と比較する二段階の判断枠組みを示しています。
複数のモデルとベンチマークでの実験により、BIRCHは情報性バイアスを最大17%低減し、判定に関連する性能を最大9.8%向上できることが報告されています。
本研究は、現在のVLM-as-a-Judgeシステムに見落とされている基本的な設計上の欠陥を明らかにし、より原理に基づいた画像に忠実な評価設計の必要性を強調しています。