SELFDOUBT:推論LLMのためのヘッジ・トゥ・ベリファイ比による不確実性定量化

arXiv cs.AI / 2026/4/10

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、推論型LLM向けの単一パスの不確実性推定手法であるSELFDOUBTを提案し、プロプライエタリAPIによってログイットや中間確率が隠されている場合でも動作します。
  • SELFDOUBTは、ヘッジ・トゥ・ベリファイ比(HVR)を用いて、モデルの推論トレースに含まれる行動的手がかりから不確実性スコアを導出し、ヘッジ/不確実性のマーカーと、明示的な自己検証を切り分けます。
  • BBH、GPQA-Diamond、MMLU-Proの7つのモデルにわたって、ヘッジ・マーカーを含まないトレースは96%の確率で正解となり、追加の推論コストなしで高精度な「信頼性ゲート」を実現します。
  • ヘッジ・マーカーが存在するケースでは、SELFDOUBTはサンプリングベースの意味エントロピーを上回り、必要な推論コストは約10分の1です。
  • ゼロ・マーカ―ゲートと、完全なSELFDOUBTスコアを組み合わせた2段階のデプロイメント・カスケードにより、タスク固有ラベルなしで、カバレッジ71%のとき精度90%を達成し、プロダクション対応の不確実性基盤であることを示唆します。

Abstract

推論言語モデルにおける不確実性推定は、実際の運用において依然として困難です。サンプリングベースの方法は計算コストが高い一方で、「言語化された確信」や「トレース長」といった一般的な単一パスの代理指標は、モデル間でしばしば一貫性を欠きます。この問題は、ロジットや中間トークン確率のいずれも公開しない、プロプライエタリ(非公開)の推論APIに対してはさらに深刻になります。これにより、実行時(推論時)に信頼できる不確実性のシグナルを得られないため、実務者は困ります。我々は、推論トレースそのものから行動的シグナルを直接抽出することで、この行き詰まりを解消する単一パスの不確実性フレームワークであるSELFDOUBTを提案します。我々の主要なシグナルであるHedge-to-Verify Ratio(HVR)は、推論トレースに不確実性マーカーが含まれているかどうか、さらに含まれている場合にそれが明示的なセルフチェック行動によって相殺(オフセット)されているかどうかを検出します。複数のサンプリングされた推論トレースやモデル内部情報を必要とする方法とは異なり、SELFDOUBTは単一の観測された推論軌跡に基づいて動作するため、どのようなプロプライエタリAPIであってもレイテンシ制約およびコスト制約下での導入に適しています。SELFDOUBTを7つのモデルと、3つのマルチステップ推論ベンチマーク(BBH、GPQA-Diamond、MMLU-Pro)で評価します。特に、不確実性に対するヘッジ(取り繕い)のマーカーが含まれないトレースは96%の確率で正しく、追加コストなしで高精度な確信ゲートが自発的に(創発的に)現れることを示しています。残りのケースでは、完全なSELFDOUBTスコアが、サンプリングベースの意味論的エントロピーを、推論コストを10分の1に抑えながら大幅に上回ります。2段階の両方を組み合わせた導入カスケードでは、タスク固有のラベルなしで、カバレッジ71%に対して精度90%を達成します。これらの結果は、SELFDOUBTが、プロプライエタリ推論モデルに対する不確実性推定のための、スケーラブルでプロダクションに適した基盤であることを示します。