視覚トークン・プルーニングはキャリブレーションを改善するか？ MLLMにおける信頼度に関する実証研究

arXiv cs.CV / 2026/4/15

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文では、マルチモーダルLLMにおける視覚トークン・プルーニングがキャリブレーション（信頼度と正しさの関係）に与える影響を、精度のみを評価するのではなく実証的に検討する。

要旨: 視覚トークンのプルーニングは、多モーダル大規模言語モデル（MLLM）における効率的推論のために広く用いられている戦略ですが、既存研究は主にタスク精度によって評価しています。本論文では、視覚トークンのプルーニングがモデルの較正（calibration、すなわち予測された信頼度が実際の正しさと一致するかどうか）にどのように影響するかを研究します。LLaVA-1.5-7BをPOPEおよびScienceQA-IMGで用い、いくつかのプルーニング戦略（異なるサリエンシ重みを用いたSCOPE、サリエンシのみのプルーニング、FastV、およびランダム・プルーニング）について、複数のトークン予算にわたって、期待較正誤差（Expected Calibration Error: ECE）、ブライアスコア、AURCを評価します。その結果、プルーニングは信頼性と効率を単純にトレードするものではないことが示されました。POPEでは、SCOPEの「純粋なカバレッジ（coverage）」設定が、未プルーニングのフルモデルと同程度の精度を維持しつつ、ECEを大幅に低下させます。さらに内部のαスイープによっても、一貫した傾向が確認されます。すなわち、サリエンシ重みを減らすと、検証したすべてのトークン予算において較正が改善される一方で、精度はわずかにしか変化しません。対照的に、サリエンシに基づくプルーニングはより悪い較正につながり、実際のFastVは本設定において深刻な性能劣化を引き起こしました。ScienceQA-IMGでも、プルーニングはECEを低減し、精度は安定しているか、あるいはわずかに向上します。加えて、カバレッジベースの選択におけるギャップ累乗指数（gap power exponent）を調べ、そのデフォルト設定が必ずしも最適ではないことを見いだします。全体として、本結果は、視覚トークンのプルーニングは精度だけでなく、信頼度の質（confidence quality）によっても評価されるべきであり、とりわけ信頼できる判断が必要な多モーダルシステムにおいて重要であることを示唆しています。