PiCSAR:推論チェーンに対する確率的信頼度選択とランキング

arXiv cs.CL / 2026/5/1

📰 ニュースIdeas & Deep AnalysisTools & Practical UsageModels & Research

要点

  • PiCSARは、best-of-nサンプリングで複数の候補解を生成したうえで、信頼度に基づくスコア関数で候補をランキングすることで、大規模言語/推論モデルの精度を高めます。
  • PiCSARは学習不要の手法であり、推論と最終解答の「同時対数尤度」を用いて各候補を評価し、その値は推論の信頼度と解答の信頼度に自然に分解されます。
  • 実験では複数の推論ベンチマークで大きな改善が示され、MATH500で+10.18、AIME2025で+9.81の向上が報告されています。
  • 基準手法に対して、20件中16件で少なくとも2倍少ないサンプル数で優れた結果を達成しており、サンプル効率の向上が示唆されます。
  • 著者らの分析では、正しい推論チェーンは誤ったものよりも推論の信頼度と解答の信頼度が有意に高いことが確認され、PiCSARの有効性を裏付けています。

Abstract

ベスト・オブ・nサンプリングは、複数の候補解を生成し、報酬が最も高いものを選択することで、大規模言語モデル(LLM)および大規模推論モデル(LRM)の精度を向上させます。推論タスクにおける主要な課題は、正解の答えにアクセスできない状況で、正しい推論の連鎖を見分けられる採点関数を設計することです。本研究では、Probabilistic Confidence Selection And Ranking(PiCSAR)を提案します。これは、訓練を必要としないシンプルな手法であり、推論と最終解答の共同対数尤度を用いて各候補生成のスコアを付けます。推論と最終解答の共同対数尤度は、自然に推論の確信度と解答の確信度へと分解されます。PiCSARは、多様なベンチマークで大きな向上を達成します(MATH500で+10.18、AIME2025で+9.81)。さらに、20回の比較のうち16回において、少なくとも2倍少ないサンプル数でベースラインを上回ります。分析の結果、正しい推論の連鎖は推論の確信度および解答の確信度が有意に高いことが分かり、PiCSARの有効性が裏付けられます。