要約: 不確実性推定は推論言語モデルを展開するうえで極めて重要だが、拡張された連鎖思考推論の下ではまだ十分に理解されていません。私たちは、言語化された確信度と自己整合性を用いた完全なブラックボックス手法としての並列サンプリングを研究します。数学、STEM、そして人文学にまたがる3つの推論モデルと17のタスクにわたり、これらの信号がどのようにスケールするかを特徴づけます。
自己整合性と言語化された確信度の両方が推論モデルでスケールしますが、自己整合性は初期の識別力が低く、中程度のサンプリング下では言語化された確信度に遅れをとります。ほとんどの不確実性の利得は、信号の組み合わせから生じます。わずか2サンプルで、ハイブリッド推定量は平均でAUROCを最大で +12 増加させ、はるかに大きな予算に拡張しても単独のいずれかの信号を超え、以降はリターンが薄くなります。これらの効果はドメイン依存です。数学は RLVR スタイルのポストトレーニングの母国ドメインであり、推論モデルは STEM や人文学よりも高い不確実性の質を達成し、より強い補完性とより速いスケーリングを示します。