AI Navigate

推論モデルにおけるサンプリングが不確実性推定をスケールさせる方法

arXiv cs.AI / 2026/3/20

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本研究では、拡張された思考過程の下で、並列サンプリング、言語化された信頼度、自己一貫性を信号として用いた推論言語モデルの不確実性推定を調査した。
  • 数学、STEM、そして人文学の分野を横断する3つの推論モデルと17のタスクを評価し、これらの不確実性信号がサンプリングによってどのようにスケールするかを特徴づけた。
  • 結果は、自己一貫性と口頭化された信頼度の双方がサンプリングとともに改善されることを示すが、自己一貫性は初期の識別力が低く、中程度のサンプリング下では口頭化された信頼度に劣る。重要な利得は信号を組み合わせることから生まれる。
  • 2つのサンプルだけを用いたハイブリッド推定量は、平均してAUROCを最大で+12ポイント向上させ、より大きな予算があっても単一の信号より優れており、ただし規模が大きくなるにつれてリターンは減少する。
  • 効果はドメインに依存し、数学において不確実性の品質が高く、補完性がより強く、STEMや人文学よりも迅速にスケールすることが示された。

要約: 不確実性推定は推論言語モデルを展開するうえで極めて重要だが、拡張された連鎖思考推論の下ではまだ十分に理解されていません。私たちは、言語化された確信度と自己整合性を用いた完全なブラックボックス手法としての並列サンプリングを研究します。数学、STEM、そして人文学にまたがる3つの推論モデルと17のタスクにわたり、これらの信号がどのようにスケールするかを特徴づけます。

自己整合性と言語化された確信度の両方が推論モデルでスケールしますが、自己整合性は初期の識別力が低く、中程度のサンプリング下では言語化された確信度に遅れをとります。ほとんどの不確実性の利得は、信号の組み合わせから生じます。わずか2サンプルで、ハイブリッド推定量は平均でAUROCを最大で +12 増加させ、はるかに大きな予算に拡張しても単独のいずれかの信号を超え、以降はリターンが薄くなります。これらの効果はドメイン依存です。数学は RLVR スタイルのポストトレーニングの母国ドメインであり、推論モデルは STEM や人文学よりも高い不確実性の質を達成し、より強い補完性とより速いスケーリングを示します。