SHAPE:潜在(Potential)推定によるステージ認識型階層的優位性で、LLM推論を改善する

arXiv cs.LG / 2026/4/9

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • SHAPEフレームワークは、プロセス監督のもとでLLMの推論を改善することを目的とし、冗長な出力と本物の推論の進捗を区別することで、トークン効率の悪化を抑える。

要旨: プロセスの監督(process supervision)は、LLMの推論を強化する有望なアプローチとして登場してきましたが、既存手法は有意義な進展と単なる冗長さを区別できず、その結果として推論能力が限定的になり、未解決のトークン効率の問題も残されています。これに対処するために、状態空間における経験的な解けやすさ(empirical solvability)を通じた軌跡として推論を形式化する、段階を意識した階層的アドバンテージ推定(Stage-aware Hierarchical Advantage via Potential Estimation; SHAPE)を提案します。SHAPEは階層的なクレジット割当の仕組みを導入します。すなわち、セグメント(区間)レベルでは、段階を意識したアドバンテージ関数を用いて、ポテンシャル(見込み)が低い状態での効率的なブレイクスルーを優先します。トークン(トークン)レベルでは、エントロピーに基づく再配分によって実行のシグナルを鋭くします。3つの基盤モデルと5つのベンチマークにまたがる数学推論に関する大規模な実験により、SHAPEが平均精度で3%の向上を達成し、トークン消費は30%削減されることが示されます。