エージェント型コーディングにおけるテスト時計算(Test-Time Compute)のスケーリング

arXiv cs.LG / 2026/4/22

💬 オピニオンIdeas & Deep AnalysisTools & Practical UsageModels & Research

要点

  • 本論文は、長いホライズンの試行が行動・観測・エラー・部分的進捗からなる長い軌跡を生成し、直接比較や再利用が難しい「エージェント型コーディング」に対するテスト時スケーリングを扱います。
  • 各ロールアウトを、重要な仮説・進捗・失敗モードを保持しつつ、情報量の小さいトレース詳細を捨てるコンパクトな構造化サマリーへ変換する枠組みを提案しています。
  • 並列スケーリングとして、Recursive Tournament Voting(RTV)を導入し、少人数の比較を繰り返してロールアウトサマリーの母集団を段階的に絞り込みます。
  • 継続的(逐次)スケーリングとして、Parallel-Distill-Refine(PDR)をエージェント環境向けに適応し、前回の試行から蒸留したサマリーに基づいて新しいロールアウトを条件付けします。
  • SWE-Bench VerifiedおよびTerminal-Bench v2.0で一貫して性能向上が示され、Claude-4.5-Opusではそれぞれ70.9%→77.6%、46.9%→59.1%の改善が報告されています。

要旨: テスト時スケーリングは、大規模言語モデルを改善するための強力な方法となってきました。しかし、既存の手法は、直接比較・順位付け・洗練(refine)できるような、短く境界が定まった出力に最適化されているのが通例です。長いホライゾンのコーディングエージェントはこの前提を満たしません。というのも、各試行は、エージェントによって行われた行動・観測・エラー・部分的な進捗からなる拡張された軌跡(trajectory)を生成するからです。この設定における主な課題は、より多くの試行を生成することではなく、過去の経験を、そこから効果的に選択され再利用できる形で表現することにあります。私たちは、ロールアウト軌跡のコンパクトな表現に基づく、エージェント型コーディングのためのテスト時スケーリングの枠組みを提案します。私たちの枠組みは、各ロールアウトを、低い信号(signal)しか含まないトレースの細部を捨てつつ、重要な仮説・進捗・失敗モードを保持する構造化された要約へと変換します。この表現により、推論時のスケーリングとして補完的な2つの形が可能になります。並列スケーリングでは、Recursive Tournament Voting(RTV)を導入します。これは、小グループの比較を通じてロールアウト要約の母集団を再帰的に絞り込むものです。逐次スケーリングでは、Parallel-Distill-Refine(PDR)をエージェントの設定に適応し、過去の試行から蒸留された要約を条件として新しいロールアウトを行います。提案手法は、SWE-Bench Verified および Terminal-Bench v2.0 の両方において、フロンティアのコーディングエージェントの性能を一貫して改善します。たとえば、提案手法を Claude-4.5-Opus に適用することで、SWE-Bench Verified(mini-SWE-agent)では 70.9% から 77.6% に、Terminal-Bench v2.0(Terminus 1)では 46.9% から 59.1% に改善します。これらの結果は、長いホライゾンを持つエージェントに対するテスト時スケーリングが本質的には、表現・選択・再利用の問題であることを示唆しています。