推論モデルにおけるサンプリングが不確実性推定をスケールさせる方法

arXiv cs.AI / 2026/3/20

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本研究では、拡張された思考過程の下で、並列サンプリング、言語化された信頼度、自己一貫性を信号として用いた推論言語モデルの不確実性推定を調査した。
数学、STEM、そして人文学の分野を横断する3つの推論モデルと17のタスクを評価し、これらの不確実性信号がサンプリングによってどのようにスケールするかを特徴づけた。
結果は、自己一貫性と口頭化された信頼度の双方がサンプリングとともに改善されることを示すが、自己一貫性は初期の識別力が低く、中程度のサンプリング下では口頭化された信頼度に劣る。重要な利得は信号を組み合わせることから生まれる。
2つのサンプルだけを用いたハイブリッド推定量は、平均してAUROCを最大で+12ポイント向上させ、より大きな予算があっても単一の信号より優れており、ただし規模が大きくなるにつれてリターンは減少する。
効果はドメインに依存し、数学において不確実性の品質が高く、補完性がより強く、STEMや人文学よりも迅速にスケールすることが示された。

要約: 不確実性推定は推論言語モデルを展開するうえで極めて重要だが、拡張された連鎖思考推論の下ではまだ十分に理解されていません。私たちは、言語化された確信度と自己整合性を用いた完全なブラックボックス手法としての並列サンプリングを研究します。数学、STEM、そして人文学にまたがる3つの推論モデルと17のタスクにわたり、これらの信号がどのようにスケールするかを特徴づけます。

自己整合性と言語化された確信度の両方が推論モデルでスケールしますが、自己整合性は初期の識別力が低く、中程度のサンプリング下では言語化された確信度に遅れをとります。ほとんどの不確実性の利得は、信号の組み合わせから生じます。わずか2サンプルで、ハイブリッド推定量は平均でAUROCを最大で $+12$ 増加させ、はるかに大きな予算に拡張しても単独のいずれかの信号を超え、以降はリターンが薄くなります。これらの効果はドメイン依存です。数学は RLVR スタイルのポストトレーニングの母国ドメインであり、推論モデルは STEM や人文学よりも高い不確実性の質を達成し、より強い補完性とより速いスケーリングを示します。

ブームの裏で制御AI未導入54％、工場の自動化阻むコストと人材不足

日経XTECH

「ハード回帰にあらず、デバイスはAIの五感と身体」オムロン技術トップ

日経XTECH

光電融合の製造受託に野心、新光電気「TSMCにはない魅力を」

日経XTECH

中国AI企業が他社製AIを「ただ乗り蒸留」か米社が主張、安全保障リスクも

日経XTECH

高1数学で理解できる機械学習、回帰直線のグラフ表示へ

日経XTECH

推論モデルにおけるサンプリングが不確実性推定をスケールさせる方法

要点

関連記事

ブームの裏で制御AI未導入54％、工場の自動化阻むコストと人材不足

「ハード回帰にあらず、デバイスはAIの五感と身体」オムロン技術トップ

光電融合の製造受託に野心、新光電気「TSMCにはない魅力を」

中国AI企業が他社製AIを「ただ乗り蒸留」か米社が主張、安全保障リスクも

高1数学で理解できる機械学習、回帰直線のグラフ表示へ

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

ブームの裏で制御AI未導入54％、工場の自動化阻むコストと人材不足

「ハード回帰にあらず、デバイスはAIの五感と身体」オムロン技術トップ

光電融合の製造受託に野心、新光電気「TSMCにはない魅力を」

中国AI企業が他社製AIを「ただ乗り蒸留」か 米社が主張、安全保障リスクも

高1数学で理解できる機械学習、回帰直線のグラフ表示へ

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

中国AI企業が他社製AIを「ただ乗り蒸留」か米社が主張、安全保障リスクも