視覚質問応答における貪欲(グリーディ)デコーディングを再考:キャリブレーションの観点から

arXiv cs.CL / 2026/4/28

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、LLMで広く用いられている確率的(ステochastic)デコーディング戦略が、一般に“head-heavy”な答え分布をもつクローズドエンド型のVisual Question Answering(VQA)では不適切になり得ると主張しています。
  • モデルのキャリブレーションと予測精度の関係を理論的に形式化し、グリーディデコーディングが最適となるための十分条件を導出しています。
  • 複数のVQAベンチマークでの実験により、グリーディデコーディングが確率的サンプリングを上回ることが示されており、このキャリブレーションに基づく主張を裏づけています。
  • 「Greedy Decoding for Reasoning Models」を提案し、マルチモーダル推論の場面で、確率的サンプリングと標準的なグリーディデコーディングの両方より高い性能を示しています。
  • LLMのデコーディング・ヒューリスティックをマルチモーダルLLMへ無批判に継承することへの警鐘を鳴らし、VQAではグリーディデコーディングが効率的かつ強力なデフォルトになり得ることを示しています。

Abstract

確率的サンプリング戦略は、大規模言語モデル(LLM)において、出力の一貫性と多様性のバランスを取るために広く採用されています。これらのヒューリスティックは、タスク固有の妥当性がないまま、マルチモーダルLLM(MLLM)へ継承されることがしばしばあります。しかし本研究では、確率的デコードは視覚質問応答(VQA)に対しては最適ではない可能性がある、と主張します。VQAはクローズドエンドのタスクであり、回答分布が“頭(head)”に偏る(head-heavy)ため、そこでの不確実性は通常、もっともらしい続きを生成することによって生じるのではなく、視覚的証拠の欠落や曖昧さに起因する認識論的(epistemic)なものです。本研究では、モデルのキャリブレーションと予測精度の関係について理論的に形式化し、貪欲デコード(greedy decoding)が最適であるための十分条件を導出します。大規模な実験により、複数のベンチマークにおいて、確率的サンプリングよりも貪欲デコードのほうが優れているという経験的証拠が提示されます。さらに、推論モデルのためのGreedy Decoding(Greedy Decoding for Reasoning Models)を提案し、マルチモーダル推論のシナリオにおいて、確率的サンプリングと標準的な貪欲デコードの両方を上回ることを示します。全体として、本研究の結果は、LLMのデコードのヒューリスティックをMLLMへ単純に継承することに対する警鐘を鳴らすものであり、貪欲デコードがVQAに対して効率的でありながら強力なデフォルトになり得ることを示しています。