MLLMにおける知覚・信頼度・正確性の連携

arXiv cs.CL / 2026/3/13

💬 オピニオンModels & Research

要点

  • 本研究はマルチモーダルLLMsにおける深刻な信頼度のミスキャリブレーション問題を特定し、知覚の改善が信頼性の高い信頼度推定を保証しないことを示しています。
  • オリジナルノイズ画像ペアと信頼度ベースの報酬を用いて、知覚感度を高め、モデルの信頼度を頑健にキャリブレーションする Confidence-Driven Reinforcement Learning (CDRL) を提案します。
  • さらに Confidence-Aware Test-Time Scaling (CA-TTS) を提案し、信頼度信号に導かれた自己整合性 Self-Consistency、自己反省 Self-Reflection、および視覚的自己検証 Visual Self-Check モジュールを動的に協調させます。
  • Expert Model は複数の役割(プランナー、クリティック、ボーター)を担い、これらのモジュールをスケジュールし外部検証を提供して、堅牢な信頼度管理を実現します。
  • 統合フレームワークは 4 つのベンチマークで一貫して 8.8% のゲインを達成し、アブレーション研究とスケーリングの利点により最先端の結果を裏付けています。
最近のマルチモーダル大規模言語モデル(MLLMs)の進展は、主に視覚知覚を強化して精度を向上させることに焦点を当ててきました。しかし、重要な問いは未だ十分に検討されていません。それは、モデルは自分が知らないことを知っているのか、ということです。検証実験を通じて、MLLMs における深刻な信頼度のミスキャリブレーション問題を明らかにします。これに対処するために、オリジナルノイズ画像ペアと新規の信頼度ベースの報酬を用いて知覚感度を高め、モデルの信頼度を頑健にキャリブレーションする Confidence-Driven Reinforcement Learning(CDRL)を提案します。訓練上の利点だけでなく、キャリブレーションされた信頼度はテスト時のスケーリングを“無料の恩恵”としてより効果的に可能にします。さらに、Confidence-Aware Test-Time Scaling(CA-TTS)を提案します。これは信頼度信号に導かれた自己整合性(Self-Consistency)、自己反省(Self-Reflection)、および視覚的自己検証(Visual Self-Check)モジュールを動的に協調させるものです。Expert Model は複数の役割(例:プランナー、クリティック、ボーター)を果たしてこれらのモジュールをスケジュールし、外部検証を提供して堅牢な信頼度管理を実現します。我々の統合フレームワークは、4つのベンチマークすべてで一貫して8.8%のゲインを達成して新たな最先端の結果を確立します。さらなるアブレーション研究は、各モジュールの有効性とスケーリングの優位性を示しています。