PiCSAR：推論チェーンに対する確率的信頼度選択とランキング

arXiv cs.CL / 2026/5/1

📰 ニュースIdeas & Deep AnalysisTools & Practical UsageModels & Research

共有:

要点

PiCSARは、best-of-nサンプリングで複数の候補解を生成したうえで、信頼度に基づくスコア関数で候補をランキングすることで、大規模言語／推論モデルの精度を高めます。
PiCSARは学習不要の手法であり、推論と最終解答の「同時対数尤度」を用いて各候補を評価し、その値は推論の信頼度と解答の信頼度に自然に分解されます。
実験では複数の推論ベンチマークで大きな改善が示され、MATH500で+10.18、AIME2025で+9.81の向上が報告されています。
基準手法に対して、20件中16件で少なくとも2倍少ないサンプル数で優れた結果を達成しており、サンプル効率の向上が示唆されます。
著者らの分析では、正しい推論チェーンは誤ったものよりも推論の信頼度と解答の信頼度が有意に高いことが確認され、PiCSARの有効性を裏付けています。

Abstract

ベスト・オブ・nサンプリングは、複数の候補解を生成し、報酬が最も高いものを選択することで、大規模言語モデル（LLM）および大規模推論モデル（LRM）の精度を向上させます。推論タスクにおける主要な課題は、正解の答えにアクセスできない状況で、正しい推論の連鎖を見分けられる採点関数を設計することです。本研究では、Probabilistic Confidence Selection And Ranking（PiCSAR）を提案します。これは、訓練を必要としないシンプルな手法であり、推論と最終解答の共同対数尤度を用いて各候補生成のスコアを付けます。推論と最終解答の共同対数尤度は、自然に推論の確信度と解答の確信度へと分解されます。PiCSARは、多様なベンチマークで大きな向上を達成します（MATH500で+10.18、AIME2025で+9.81）。さらに、20回の比較のうち16回において、少なくとも2倍少ないサンプル数でベースラインを上回ります。分析の結果、正しい推論の連鎖は推論の確信度および解答の確信度が有意に高いことが分かり、PiCSARの有効性が裏付けられます。

Black Hat USA

AI Business

AIの次に来る技術、投資データで浮き彫りにランキング上位を徹底解説

日経XTECH

自律的なコーディングエージェントが失敗し続ける理由――そして本当に効く対策

Dev.to

ChatGPTの「画像生成」、どう進化？　開発者に聞く　“文字化け解消”の秘訣

ITmedia AI+

テキストから画像は簡単だが、LLMを連携して自律的に生成・批評・反復するのはルーティング地獄——AgentSwarmsが画像生成プレイグラウンドに対応

Reddit r/artificial

PiCSAR：推論チェーンに対する確率的信頼度選択とランキング

要点

Abstract

関連記事

Black Hat USA

AIの次に来る技術、投資データで浮き彫りにランキング上位を徹底解説

自律的なコーディングエージェントが失敗し続ける理由――そして本当に効く対策

ChatGPTの「画像生成」、どう進化？　開発者に聞く　“文字化け解消”の秘訣

テキストから画像は簡単だが、LLMを連携して自律的に生成・批評・反復するのはルーティング地獄——AgentSwarmsが画像生成プレイグラウンドに対応

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

Abstract

関連記事

Black Hat USA

AIの次に来る技術、投資データで浮き彫りに ランキング上位を徹底解説

自律的なコーディングエージェントが失敗し続ける理由――そして本当に効く対策

ChatGPTの「画像生成」、どう進化？ 開発者に聞く “文字化け解消”の秘訣

テキストから画像は簡単だが、LLMを連携して自律的に生成・批評・反復するのはルーティング地獄——AgentSwarmsが画像生成プレイグラウンドに対応

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

AIの次に来る技術、投資データで浮き彫りにランキング上位を徹底解説

ChatGPTの「画像生成」、どう進化？　開発者に聞く　“文字化け解消”の秘訣