視覚質問応答における貪欲(グリーディ)デコーディングを再考:キャリブレーションの観点から
arXiv cs.CL / 2026/4/28
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文は、LLMで広く用いられている確率的(ステochastic)デコーディング戦略が、一般に“head-heavy”な答え分布をもつクローズドエンド型のVisual Question Answering(VQA)では不適切になり得ると主張しています。
- モデルのキャリブレーションと予測精度の関係を理論的に形式化し、グリーディデコーディングが最適となるための十分条件を導出しています。
- 複数のVQAベンチマークでの実験により、グリーディデコーディングが確率的サンプリングを上回ることが示されており、このキャリブレーションに基づく主張を裏づけています。
- 「Greedy Decoding for Reasoning Models」を提案し、マルチモーダル推論の場面で、確率的サンプリングと標準的なグリーディデコーディングの両方より高い性能を示しています。
- LLMのデコーディング・ヒューリスティックをマルチモーダルLLMへ無批判に継承することへの警鐘を鳴らし、VQAではグリーディデコーディングが効率的かつ強力なデフォルトになり得ることを示しています。

