大規模言語モデルにおける「信頼（confidence）-忠実性（faithfulness）」ギャップを埋める

arXiv cs.CL / 2026/3/27

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、LLMの発話された信頼度スコアが十分に校正されていない理由を分析し、線形プローブとコントラスト的な活性化付加によるステアリングを用いた機械的な説明を提案する。
複数のオープンウェイトモデルとデータセットにおいて、校正（精度に関連する信号）と発話された信頼度は、それぞれ線形にデコード可能な形で符号化されているものの、互いに直交していることを見いだす。
プロンプトで、モデルに推論と信頼度スコアの出力の両方を求める場合、推論プロセスが信頼度に関する内部の方向性を変化させたり破壊したりしてしまい、「推論コンタミネーション効果（Reasoning Contamination Effect）」により誤校正が悪化する。
これらの知見に基づき、著者らは、モデルの内部精度推定を活用する二段階の適応型ステアリング・パイプラインを提案し、評価した各モデルにおける信頼度と精度の整合（confidence-to-accuracy alignment）を大幅に改善する。