回答しないべき時を知る:マルチモーダル推論システムにおける棄権(アブステイン)の評価

arXiv cs.CL / 2026/4/17

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 論文は、証拠が不十分なときに「答えない」を選ぶ有効な棄権が、信頼性の高いマルチモーダル推論システムに不可欠だと主張する一方で、既存の評価では見落とされがちだと述べています。
  • 画像の依存度と証拠の十分性の2軸で変換することで、答えられる例から答えられない例を生成する新ベンチマークMM-AQAを提案しています。
  • 2079サンプルを対象に、3つの最先端VLMと2つのマルチエージェント構成を評価した結果、標準的なプロンプトでは棄権がほとんど起きないことが示され、プロンプト単独よりも信頼度ベースの基準の方が有効でした。
  • マルチエージェントは棄権を増やすものの、精度と棄権の間でトレードオフが生じること、また反復的な設計よりも逐次設計が同等以上になることから、ボトルネックは推論の深さではなく校正(ミスキャリブレーション)にあると示唆されます。
  • モデルは画像またはテキストの主要な証拠が欠けていると棄権できる一方で、劣化したり矛盾する証拠を「つじつまを合わせよう」としてしまう傾向があり、より良いプロンプトやエージェント追加ではなく棄権を意識した学習が必要だと結論づけています。