広告

STATe-of-Thoughts:ツリー・オブ・ソートのための構造化されたアクション・テンプレート

arXiv cs.CL / 2026/4/1

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • ツリー・オブ・ソート型の推論時コンピュート手法は、高温度サンプリングに大きく依存するため、有意義な多様性を生成できないことがあります。また、推論プロセスに対する制御も限定的です。
  • 提案手法のSTATe Of Thoughts(STATe)は、確率的サンプリングを、コントローラ–ジェネレータ–エバリュエータの枠組みに置き換えます。ここでは、離散的で解釈可能なアクション・テンプレートを用いて、推論上の選択を導きます。
  • STATeは、温度ベースのサンプリングよりも、構造化されたテキストによる介入を通じて、LLM生成へのより信頼性の高い影響と、より高い出力多様性を示します。
  • 議論生成のケーススタディでは、STATeの明示的なアクション系列が、出力品質と強く予測的に結びつく解釈可能な特徴を特定します。
  • アクション選択とパフォーマンスの関連を分析することで、STATeは推論/アクション空間の有望な領域を見つけ、生成をそこへ導くことで、制御可能性と解釈可能性を高められます。

Abstract

Best-of-N や Tree-of-Thoughts のような推論時計算(Inference-Time-Compute; ITC)手法は、高品質かつ多様な出力候補を生成することを目的としていますが、高温サンプリングの使用はしばしば意味のある出力多様性を達成できません。さらに、既存の ITC 手法では、推論をどのように実行するかについての制御が限られており、その結果として解釈可能性も制約されます。私たちは、高水準の推論パターンを探索する、解釈可能な ITC 手法である STATe Of Thoughts(STATe)を提案します。STATe は、確率的サンプリングを離散的で解釈可能なテキスト介入で置き換えます。すなわち、コントローラが高水準の推論選択を符号化するアクションを選択し、その選択に条件付けられた推論ステップをジェネレータが生成し、評価器が候補にスコアを付けて探索を導きます。この構造化されたアプローチは、主に 3 つの利点をもたらします。第一に、アクションに導かれたテキスト介入は LLM の生成に確実に影響を与え、温度ベースのサンプリングよりも大きな応答多様性を生み出します。第二に、議論文生成に関するケーススタディでは、STATe の明示的なアクション列が、出力品質を高い予測力で捉える解釈可能な特徴を明らかにします。第三に、性能とアクション選択の関連を推定することで、有望でありながら未踏のアクション空間の領域を特定し、生成をそこへと誘導できます。これらの結果により、STATe は、多様で制御可能なテキスト生成のための実用的な枠組みであると同時に、性能を駆動する推論パターンを理解するためのツールとして確立されます。

広告