自信スコアに確信を持つ:教師あり微調整に対する自信スコアの感度を調査する

arXiv cs.CL / 2026/4/13

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • この論文は、大規模言語モデルにおける不確実性/自信スコアの振る舞いと、幻覚検出やユーザーへの警告といった実用上の用途において出力品質とどの程度相関するかを調べる。
  • 自己教師ありではなく教師あり微調整(SFT)によって、自信スコアと真の出力品質の相関が低下し得ることを報告しており、適応後は自信指標が信頼できなくなることを示唆している。
  • 著者らは、この相関のズレ(ミスコリレーション)を、出力品質とは無関係な要因によって自信スコアが変化することに起因するとしている。たとえば、出力が学習分布に似ているかどうかといった要素が挙げられる。
  • 下流タスクに関する事例研究では、SFT後のこのミスアラインメントを無視すると、実際のタスクにおける自信スコアの有用性が大きく低下し得ることが示される。
  • 本研究は、微調整後は自信指標をそのまま(オフザシェルフで)利用できないと結論づけるとともに、微調整に対して頑健な自信指標の開発と検証を促している。

概要: 不確実性の定量化は、言語モデルに対する信頼度を測定する一連の手法です。例えば、幻覚を検出したり、不確実な予測を見直すようユーザーに注意喚起したりするのに用いることができます。有用であるためには、これらの信頼度スコアが出力の品質と相関していなければなりません。しかし近年の研究では、微調整が信頼度スコアと品質の相関に影響し得ることがわかりました。そこで本研究では、教師あり微調整(SFT)への感度を理解するために、信頼度スコアの根本的な挙動を調査します。その結果、SFTの後に、さまざまな信頼度スコアの相関が低下することを見出しました。これは、出力品質以外の要因、例えば出力が学習分布に類似していることなどによって信頼度スコアが変化することに起因し得ます。このミスコリレーション(誤った相関)に対処できないことが、下流タスクにおいて信頼度スコアの有用性をどのように低下させるかを、ケーススタディによって示します。本研究の知見は、信頼度メトリクスがテストなしにそのまま使えるわけではないことを示し、微調整に対してより頑健なメトリクスを開発する必要性を動機づけます。