反復LLM推論における「2回のコール」と「投票精度カーブ」:2点観測に基づく推定
arXiv cs.LG / 2026/5/6
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文は、テスト時に反復サンプリングを行うLLM推論の効果は、単発(1回)の精度だけでなく、各例の正解性を生む潜在分布に左右されることを示す。
- 1回と2回のラベル付き推論コールを用いて潜在成功確率の一次モーメントと二次モーメントを推定し、同一例における正誤の相関を捉えることで「安定した誤り」と「呼び出し単位の偶然で回復可能な誤り」を区別できるようにする。
- いかなる固定の多数決(majority-vote)計算予算に対しても、2回の観測から導ける分布非依存で鋭い(離散化やパラメトリック化を伴わない)境界を導出し、無限次元のモーメント問題を三つの原子(3-atom)極値へ還元して厳密な双対証明を構成する。
- 実用上の最初の予算である3票については閉形式の区間を与え、区間幅が小さいことや「改善が保証される条件」も提示する一方、多数決を無限回に近づけた極限はq=1/2付近の潜在質量への閾値感度が残ることを分析する。
- QNLIとQQPでのLLMコール実験では、最大エントロピー補完やLDGP(Latent-difficulty Gaussian-probit)による点補完を含め、観測された3票・5票精度が予測された2回観測領域に収まることを示し、さらに温度変更やモデル混合のランダム化は、単発精度の序列では説明できない投票での改善を生み得ることを示している。



