要旨: 視覚トークンのプルーニングは、多モーダル大規模言語モデル(MLLM)における効率的推論のために広く用いられている戦略ですが、既存研究は主にタスク精度によって評価しています。本論文では、視覚トークンのプルーニングがモデルの較正(calibration、すなわち予測された信頼度が実際の正しさと一致するかどうか)にどのように影響するかを研究します。LLaVA-1.5-7BをPOPEおよびScienceQA-IMGで用い、いくつかのプルーニング戦略(異なるサリエンシ重みを用いたSCOPE、サリエンシのみのプルーニング、FastV、およびランダム・プルーニング)について、複数のトークン予算にわたって、期待較正誤差(Expected Calibration Error: ECE)、ブライアスコア、AURCを評価します。その結果、プルーニングは信頼性と効率を単純にトレードするものではないことが示されました。POPEでは、SCOPEの「純粋なカバレッジ(coverage)」設定が、未プルーニングのフルモデルと同程度の精度を維持しつつ、ECEを大幅に低下させます。さらに内部のαスイープによっても、一貫した傾向が確認されます。すなわち、サリエンシ重みを減らすと、検証したすべてのトークン予算において較正が改善される一方で、精度はわずかにしか変化しません。対照的に、サリエンシに基づくプルーニングはより悪い較正につながり、実際のFastVは本設定において深刻な性能劣化を引き起こしました。ScienceQA-IMGでも、プルーニングはECEを低減し、精度は安定しているか、あるいはわずかに向上します。加えて、カバレッジベースの選択におけるギャップ累乗指数(gap power exponent)を調べ、そのデフォルト設定が必ずしも最適ではないことを見いだします。全体として、本結果は、視覚トークンのプルーニングは精度だけでなく、信頼度の質(confidence quality)によっても評価されるべきであり、とりわけ信頼できる判断が必要な多モーダルシステムにおいて重要であることを示唆しています。
視覚トークン・プルーニングはキャリブレーションを改善するか? MLLMにおける信頼度に関する実証研究
arXiv cs.CV / 2026/4/15
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文では、マルチモーダルLLMにおける視覚トークン・プルーニングがキャリブレーション(信頼度と正しさの関係)に与える影響を、精度のみを評価するのではなく実証的に検討する。




