概要: 大規模言語モデル(LLM)における最近の進歩により、テスト時スケーリングが複雑な課題において、特にコーディング領域でモデル性能を大幅に向上させ得ることが示されています。このパラダイムでは、モデルは最終回答を生成する前に、推論の中間的な痕跡(reasoning traces)を生成するために、推論時により大きなトークン予算を使用します。しかし、現在の評価は主として競技プログラミングのベンチマークに依存しており、推論能力の全範囲を捉えきれていない可能性があります。本研究では、実世界のコーディングベンチマークにおける性能を理解するために、最先端の推論モデルに対して体系的な調査を行います。このようなモデルの性能に関するより多くの洞察を得るため、既存のベンチマークから任意の難易度と構造をもつコーディング課題を {自動的に生成する} ための、プログラムによる手法を考案しました。この枠組みによる分析により、推論痕跡の内容だけでなく、その構造が正しさの強力な予測因子であることが明らかになります。これに動機づけられ、推論痕跡を表現する手段として、構造化された thought-trees を提案します。それらの利用を示すために、thought-tree から抽出した特徴量に基づいて、軽量な分類器を学習して痕跡の正確性を予測し、さらに抽出された特徴量に基づいて構造的に異常な痕跡をフラグ付けし、再試行することで、より低い複雑度レベルにおいて一貫した向上が得られることを示します。
サイキックを試す:思考ツリーでコーディング課題における推論モデルの精度を予測する
arXiv cs.AI / 2026/4/21
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、最前線の推論LLMが実世界のコーディングベンチマークでどのように性能を発揮するかを調査し、標準的な競技プログラミングの評価だけでは捉えきれない推論能力の幅を補うことを目指しています。
- 既存ベンチマークから任意の難易度と構造をもつコーディング課題を自動生成する手法を提案します。
- モデルの推論トレースにおける“内容”だけでなく、その“構造”が正否(正しい最終回答かどうか)の強い予測因子であることを明らかにしています。
- 推論トレースを「構造化された思考ツリー」として表現する枠組みを提案し、抽出した特徴からトレースの正しさを判定する軽量な分類器を学習して、構造的に異常なトレースを検知して再試行することで、低い複雑度レベルで一貫した精度向上が得られることを示します。




