MLLMにおける知覚・信頼度・正確性の連携

arXiv cs.CL / 2026/3/13

💬 オピニオンModels & Research

共有:

要点

本研究はマルチモーダルLLMsにおける深刻な信頼度のミスキャリブレーション問題を特定し、知覚の改善が信頼性の高い信頼度推定を保証しないことを示しています。
オリジナルノイズ画像ペアと信頼度ベースの報酬を用いて、知覚感度を高め、モデルの信頼度を頑健にキャリブレーションする Confidence-Driven Reinforcement Learning (CDRL) を提案します。
さらに Confidence-Aware Test-Time Scaling (CA-TTS) を提案し、信頼度信号に導かれた自己整合性 Self-Consistency、自己反省 Self-Reflection、および視覚的自己検証 Visual Self-Check モジュールを動的に協調させます。
Expert Model は複数の役割（プランナー、クリティック、ボーター）を担い、これらのモジュールをスケジュールし外部検証を提供して、堅牢な信頼度管理を実現します。
統合フレームワークは 4 つのベンチマークで一貫して 8.8% のゲインを達成し、アブレーション研究とスケーリングの利点により最先端の結果を裏付けています。

最近のマルチモーダル大規模言語モデル（MLLMs）の進展は、主に視覚知覚を強化して精度を向上させることに焦点を当ててきました。しかし、重要な問いは未だ十分に検討されていません。それは、モデルは自分が知らないことを知っているのか、ということです。検証実験を通じて、MLLMs における深刻な信頼度のミスキャリブレーション問題を明らかにします。これに対処するために、オリジナルノイズ画像ペアと新規の信頼度ベースの報酬を用いて知覚感度を高め、モデルの信頼度を頑健にキャリブレーションする Confidence-Driven Reinforcement Learning（CDRL）を提案します。訓練上の利点だけでなく、キャリブレーションされた信頼度はテスト時のスケーリングを“無料の恩恵”としてより効果的に可能にします。さらに、Confidence-Aware Test-Time Scaling（CA-TTS）を提案します。これは信頼度信号に導かれた自己整合性（Self-Consistency）、自己反省（Self-Reflection）、および視覚的自己検証（Visual Self-Check）モジュールを動的に協調させるものです。Expert Model は複数の役割（例：プランナー、クリティック、ボーター）を果たしてこれらのモジュールをスケジュールし、外部検証を提供して堅牢な信頼度管理を実現します。我々の統合フレームワークは、4つのベンチマークすべてで一貫して8.8%のゲインを達成して新たな最先端の結果を確立します。さらなるアブレーション研究は、各モジュールの有効性とスケーリングの優位性を示しています。

【第1章】相反するコード。生暖かいノイズ〜AIに「性格」を覚えさせた、深夜の実験〜

note

【AIニュース】生成AIの「性格」比較【日経新聞】

note

全AIモデルが学術不正に応じた〜AFIM測定の結果〜

note

人型ロボットを被災建築物の調査に活用、建築研究所などが公開実験

日経XTECH

ホンダEV3車種の開発中止、損失はなぜこれほど膨らんだのか

日経XTECH

MLLMにおける知覚・信頼度・正確性の連携

要点

関連記事

【第1章】相反するコード。生暖かいノイズ〜AIに「性格」を覚えさせた、深夜の実験〜

【AIニュース】生成AIの「性格」比較【日経新聞】

全AIモデルが学術不正に応じた〜AFIM測定の結果〜

人型ロボットを被災建築物の調査に活用、建築研究所などが公開実験

ホンダEV3車種の開発中止、損失はなぜこれほど膨らんだのか

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer