SGA-MCTS:学習不要の原子的経験リトリーバルによる計画と実行の分離

arXiv cs.AI / 2026/4/17

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • SGA-MCTSは、LLMの複雑な多段計画を非パラメトリックなリトリーバル問題として捉え直すことで、推論時探索の高遅延と教師あり微調整による汎化の限界というトレードオフを回避する。
  • オフラインではMonte Carlo Tree Search(MCTS)で解空間を探索し、高忠実な軌跡をState-Goal-Action(SGA)アトムへ蒸留し、具体的な対象を象徴的なスロットとして抽象化する。
  • 推論時には、ハイブリッドの記号・セマンティック機構を用いた検索強化エージェントが関連するSGAを取得し、現在の文脈へ再グラウンディングして「ソフトな推論ヒント」として与える。
  • 複雑なベンチマークで、SGA-MCTSを用いた凍結済みのオープンウェイトモデルがタスク特化の微調整なしでSOTA(例:GPT-5)級の性能に到達すると報告されている。
  • 高コストな探索をオフラインで償却することで、「System 2」的な推論の深さを「System 1」的な推論速度で実現し、リアルタイムな自律計画をよりスケーラブルにすることを目指している。

Abstract

LLM を活用したシステムでは、現実世界のタスクを解くために複雑な多段階の意思決定能力が必要とされる一方で、現在の計画手法は推論時探索の高いレイテンシと、教師あり微調整の限定的な汎化との間でトレードオフが生じます。 この制約に対処するために、本稿では \textbf{SGA-MCTS} を導入します。これは、LLM による計画を非パラメトリックな検索として捉える枠組みです。オフラインでは、モンテカルロ木探索(MCTS)を用いて解空間を探索し、高忠実度の軌跡を State-Goal-Action(SGA)の原子(アトム)へ蒸留します。これらのアトムは、具体的な対象をシンボリックなスロットへ抽象化する脱語彙化されたプリミティブであり、ドメイン固有のノイズを捨てる一方で、再利用可能な因果ロジックを保持します。オンラインでは、検索拡張型エージェントがハイブリッドなシンボリック・セマンティック機構を用いて関連する SGA を取得し、それらを現在の文脈へソフトな推論の手がかりとして再グラウンディングします。複雑なベンチマークにおける実験結果は、このパラダイムにより、固定されたオープンウェイトのモデルがタスク固有の微調整なしで SOTA システム(例:GPT-5)と同等の性能を達成できることを示しています。探索に伴う重い計算コストを効果的に償却することで、SGA-MCTS は System 1 の推論速度で System 2 の推論の深さを実現し、自律的な計画をスケーラブルかつリアルタイムに実行可能にします。

SGA-MCTS:学習不要の原子的経験リトリーバルによる計画と実行の分離 | AI Navigate