大規模言語モデルの推論を言語による批評で改善する:Process Supervisionの手法

arXiv cs.CL / 2026/4/24

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • この論文は、「Verbal Process Supervision(VPS)」という、より強いスーパー バイザーの構造化された自然言語の批評を用いて、生成→批評→推敲を繰り返すことで推論を改善する“学習不要”の推論時フレームワークを提案しています。
  • VPSは、深い推論チェーンや広いサンプリング、学習済みステップスコアラ(PRMs)と並ぶスケーリング軸として、「批評の粒度(critique granularity)」を新たに位置づけています。
  • GPQA Diamondでは、VPSによりGPT-5.4の各変種がR=4で94.9%に到達し、勾配更新なしで先行のSOTA(94.1%)を上回ります。
  • AIME 2025では「弱いアクターの救済(weak-actor rescue)」を実現し、性能を11.7–26.7%から63.3–90.0%へ大幅に引き上げます。
  • GPQAおよびLiveCodeBench V6では、同等の計算量条件でReflexionやSelf-Consistencyより高い性能を示し、スーパー バイザーとアクターの能力差と強い相関(r=0.90)を持つ一方、言語的に表現できない誤り(コード生成など)では劣化することが分かっています。

Abstract

LLMの推論時スケーリングにおける焦点は、主に3つの軸、すなわちチェーンの深さ、サンプルの幅、学習済みステップ・スコアラー(PRM)に置かれてきました。私たちは、第4の軸として、外部の言語的監督の粒度(granularity)を導入します。それを実現するのが、Verbal Process Supervision(VPS)です。VPSは学習不要(training-free)の枠組みであり、より強い監督者から得られる構造化された自然言語による批評を用いて、ラウンド予算Rまでの反復的な「生成-批評-精錬(generate-critique-refine)」ループを導きます。GPQA Diamond、AIME 2025、LiveCodeBench V6(クローズドモデルとオープンモデルの両方を含む)において、VPSは3つの重要な結果を示します。第一に、GPQA Diamondでは、GPT-5.4 (High) | GPT-5.4 (Low) がR=4で94.9%に到達し、勾配更新なしで94.1%の従来の最先端を上回ります。第二に、AIME 2025では、VPSにより強い弱アクターの救済が可能となり、スコアが11.7-26.7%から63.3-90.0%へと大きく向上します(最大+63.3ポイント)。第三に、同一の計算量条件下で、VPSはReflexionに対して+8.5〜+12.1ポイント、Self-Consistency@5に対して+5.0 pp(GPQA)および+8.3 pp(LiveCodeBench)上回り、批評の粒度が主要な駆動要因であることを切り分けます。性能は監督者とアクターの能力ギャップに応じてスケールします(Pearson r=0.90)が、誤りが言語として表現できない場合(例えばコード合成)には低下します。これにより、ハイブリッドな「言語-実行」手法が動機づけられます。これらの結果は、批評の粒度が推論時スケーリングの新たな軸であることを確立します。