大規模言語モデルの推論を言語による批評で改善する:Process Supervisionの手法
arXiv cs.CL / 2026/4/24
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- この論文は、「Verbal Process Supervision(VPS)」という、より強いスーパー バイザーの構造化された自然言語の批評を用いて、生成→批評→推敲を繰り返すことで推論を改善する“学習不要”の推論時フレームワークを提案しています。
- VPSは、深い推論チェーンや広いサンプリング、学習済みステップスコアラ(PRMs)と並ぶスケーリング軸として、「批評の粒度(critique granularity)」を新たに位置づけています。
- GPQA Diamondでは、VPSによりGPT-5.4の各変種がR=4で94.9%に到達し、勾配更新なしで先行のSOTA(94.1%)を上回ります。
- AIME 2025では「弱いアクターの救済(weak-actor rescue)」を実現し、性能を11.7–26.7%から63.3–90.0%へ大幅に引き上げます。
- GPQAおよびLiveCodeBench V6では、同等の計算量条件でReflexionやSelf-Consistencyより高い性能を示し、スーパー バイザーとアクターの能力差と強い相関(r=0.90)を持つ一方、言語的に表現できない誤り(コード生成など)では劣化することが分かっています。



