AI Navigate

推論の代償:チェーン・オブ・思考は視覚言語モデルの過信を誘発する

arXiv cs.LG / 2026/3/18

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 著者らは、視覚言語モデルにおけるチェーン・オブ・思考プロンプトを用いた拡張的推論が、不確実性推定の信頼性を低下させることを示しており、タスクの精度が向上してもその影響は変わらない。
  • 主なメカニズムは暗黙の回答条件付けである。推論の痕跡が結論に収束するにつれて、トークン確率は正解についての真の不確実性よりも、モデル自身の推論との一貫性を反映するようになり、過信を招く。
  • 対照的に、出力の一致性に基づく一貫性は推論下でも堅牢であり、しばしば改善する。これにより、推論を有するVLMにおける実用的な不確実性推定手法となる。
  • これらの知見は、高リスクの設定でVLMを展開する際の重要な示唆を持つとともに、そうしたシステムにおける信頼性の高い不確実性定量化手法の設計にも影響を与える。

要旨:視覚と言語モデル(VLMs)は、信頼性の高い不確実性定量化(UQ)が予測精度と同等に重要である高リスクな設定で、ますます展開されています。チェーン・オブ・ソート(CoT)プロンプトによる拡張推論または推論訓練済みモデルは、現代のVLMパイプラインで広く普及していますが、UQの信頼性に対するその影響は未だ十分には理解されていません。推論は、タスクの正確性を向上させる場合でも、多くの不確実性推定の品質を一貫して低下させることを示しています。暗黙の回答条件付けを主要な機構として特定します:推論の痕跡が最終的な回答が生成される前に結論へ収束すると、トークンの確率は、正しさについての不確実性よりもむしろモデル自身の推論痕跡との一貫性を反映するようになっていきます。結果として、モデルは自分の回答に過度に自信を持つようになります。対照的に、合意ベースの一貫性は堅牢であり、推論を有効にしたVLMの不確実性推定においてしばしば改善するため、実用的な選択肢となります。