要旨: 大規模視覚言語モデル(LVLM)は強力なマルチモーダル推論を達成しますが、しばしば幻覚や、確信度が高いにもかかわらず誤った応答を示します。これにより、高リスク領域での利用が妨げられています。既存の、言語化された確信度キャリブレーション手法は、主としてテキストのみのLLM向けに開発されてきたものであり、一般に、二値の「回答レベルの正しさ」を用いて単一の全体的な確信度スコアを最適化します。しかし、この設計はLVLMに適合していません。誤った予測は、知覚の失敗によって生じる場合もあれば、正しい知覚が得られているにもかかわらず推論の誤りによって生じる場合もあります。そして単一の確信度は、これらの要因を混同してしまいます。さらに、視覚的不確実性はしばしば言語的な事前分布(プライオリ)によって支配されます。これらの問題に対処するため、我々はVL-Calibrationを提案します。これは、確信度を「視覚」と「推論」に明示的に分解する強化学習フレームワークです。知覚の真値ラベル(ground-truth perception labels)がない状況で視覚の確信度を教師データとして与えるために、(i) 画像摂動下でのKLダイバージェンスによって測定される視覚グラウンディング、および (ii) トークンエントロピーによって測定される内部の確信度、を組み合わせた固有の視覚確実性推定を導入します。さらに、視覚の確実性に基づいて最適化の焦点をトークンへ移すためのトークン単位のアドバンテージ再重み付けを提案し、妥当な知覚を維持しながら、根拠のない幻覚を抑制します。13のベンチマークに関する実験により、VL-Calibrationがキャリブレーションを効果的に改善し、視覚推論の精度も向上させることが示されます。また、モデルの規模やアーキテクチャをまたいで、分布外ベンチマークにも一般化します。
VL-Calibration:大規模視覚言語モデルの推論に対するデカップル(独立化)された信頼度キャリブレーション
arXiv cs.CL / 2026/4/13
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、大規模視覚言語モデルがしばしば幻覚(ハルシネーション)や誤答を、高い信頼度で生成してしまうことがある一方で、テキストのみのLLM向けの既存の「単一スコア」信頼度キャリブレーション手法は、LVLMの誤り構造と適合していないと主張する。
- 提案手法のVL-Calibrationは、強化学習の枠組みにより信頼度を明示的にデカップル(独立化)し、視覚的な信頼度(知覚/グラウンディング)と推論の信頼度(知覚に基づく応答生成)に分解する。
- 真の知覚ラベル(ground-truth perception labels)がない状況での視覚的教師信号のために、本手法は、画像摂動に基づくグラウンディングの不確実性(KLダイバージェンス)と、内部トークンのエントロピーを組み合わせた固有の視覚的確実性推定量を導入する。
- さらに、視覚的確実性に導かれたトークン単位のアドバンテージ・リウェイト(優位度の再重み付け)を用いて、グラウンディングされていない幻覚トークンへの最適化を抑制しつつ、適切にグラウンディングされた知覚は保持する。
- 13のベンチマークにわたる実験により、信頼度キャリブレーションの改善と視覚推論精度の向上が示され、モデル規模やアーキテクチャが異なる条件でも分布外ベンチマークへ一般化できることが確認される。




