広告

効率的なテスト時計算スケーリングのための適応的並列モンテカルロ木探索

arXiv cs.AI / 2026/4/2

📰 ニュースDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、モンテカルロ木探索(MCTS)に「ネガティブな早期終了(negative early exit)」を提案し、生産性の低い軌道を枝刈りして、MCTSの実行時間が可変であることに起因するロングテールのレイテンシを解決します。
  • また、回収された計算(reclaimed computation)を並行する探索へ再配分することで、リソース競合を低減する適応的なブースティング機構も導入します。
  • 著者らはこれらの手法をvLLMに統合し、スループットを改善しつつ、エンドツーエンドのp99レイテンシを大幅に低減したことを報告しています。
  • このアプローチは、テスト時の計算スケーリングの振る舞いがより効率的かつ予測可能になる場合でも、推論精度を維持することを目的としています。

要旨: モンテカルロ木探索(MCTS)は、大規模言語モデルの推論性能を向上させるための効果的なテスト時計算スケーリング(TTCS)手法ですが、実行時間が非常に変動するため、実運用では深刻なロングテール遅延につながります。正の早期終了のような既存の最適化は、有利なケースでは遅延を減らせますが、有意義な進展のないまま探索が続く場合には効果が低くなります。そこで、{
it 負の早期終了} を提案し、非生産的なMCTSの軌跡を刈り込みます。さらに、{
it 階層的ブースティング機構(adaptive boosting mechanism)} を導入し、回収できた計算を再配分することで、同時に走る探索間のリソース競合を低減します。vLLMに統合したところ、これらの手法は推論精度を維持しつつ、スループットを向上させ、p99のエンドツーエンド遅延を大幅に削減しました。

広告