PiCSAR:推論チェーンに対する確率的信頼度選択とランキング
arXiv cs.CL / 2026/5/1
📰 ニュースIdeas & Deep AnalysisTools & Practical UsageModels & Research
要点
- PiCSARは、best-of-nサンプリングで複数の候補解を生成したうえで、信頼度に基づくスコア関数で候補をランキングすることで、大規模言語/推論モデルの精度を高めます。
- PiCSARは学習不要の手法であり、推論と最終解答の「同時対数尤度」を用いて各候補を評価し、その値は推論の信頼度と解答の信頼度に自然に分解されます。
- 実験では複数の推論ベンチマークで大きな改善が示され、MATH500で+10.18、AIME2025で+9.81の向上が報告されています。
- 基準手法に対して、20件中16件で少なくとも2倍少ないサンプル数で優れた結果を達成しており、サンプル効率の向上が示唆されます。
- 著者らの分析では、正しい推論チェーンは誤ったものよりも推論の信頼度と解答の信頼度が有意に高いことが確認され、PiCSARの有効性を裏付けています。




