トークンレベルの温度スケーリングによる言語モデルの質問応答におけるセマンティック不確実性の定量化の改善

arXiv cs.LG / 2026/4/9

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、言語モデルの質問応答におけるセマンティック不確実性の定量化が、識別(discrimination)に主に注目することで校正(calibration)が十分に扱われてこなかったと主張している。
  • 複数の信頼度指標にわたって校正と識別の両方を評価し、一般的な固定温度のヒューリスティックでは体系的に不十分な校正となり、さらに識別力も弱い信頼度分布が得られることを見出す。
  • 著者らは、単一のスカラー温度を最適化することで、帰納的バイアスに適した、シンプルな方法としてトークンレベルの温度スケーリングを提案する。
  • 大規模な実験により、このスカラー温度スケーリングはセマンティックの校正と識別を改善するだけでなく、質問応答タスクにおける下流のエントロピーも改善することが示される。
  • 本手法は、評価した質問応答の設定において、ヒューリスティックのベースラインおよび、より表現力の高いトークンレベルの再校正アプローチを上回ると報告されている。

要旨: 校正(Calibration)は信頼できる意味的な不確実性定量化の中核であるにもかかわらず、先行研究の多くは校正ではなく識別(discrimination)に大きく焦点を当ててきました。校正と識別は不確実性の異なる側面を捉えるため、識別だけに注目すると不完全な全体像になります。本研究では、このギャップを埋めるために、幅広い信頼度指標の集合に対して両方の側面を体系的に評価します。現在のアプローチ、特に固定温度ヒューリスティックは、体系的に誤校正であり、かつ識別力の低い意味的信頼度分布を生み出すことを示します。さらに、単一のスカラー温度を最適化すること—我々が適切な帰納バイアスを提供すると論じる—は、驚くほど単純でありながら効果的な解決策であることを実証します。徹底的な評価により、温度スケーリングは意味的な校正、識別、ならびに下流のエントロピーを一貫して改善し、質問応答タスクにおいて、ヒューリスティックのベースラインと、より表現力のあるトークン単位の再校正手法の両方を上回ることが確認されました。