Reason in Chains, Learn in Trees: 自己修正とギャラフトによるマルチターン・エージェント方策最適化

arXiv cs.AI / 2026/4/10

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、LLMエージェントに対するマルチターン強化学習が、サンプリングした軌跡を独立した「チェーン」として扱って学習することで、報酬が疎で適切にクレジット付与されないことにより制限されると主張する。
相関のあるステップを複数の軌跡間で統合し、潜在する報酬構造を回復するための統一された「認知ツリー」を構築する、T-STAR（Tree-structured Self-Taught Agent Rectification）を提案する。
内省的評価（Introspective Valuation）機構により、軌跡レベルの報酬をツリーを通じて逆伝播させ、分散を低減したステップレベルの相対的優位性を計算し、より効果的な最適化を可能にする。
認知ツリーを用いて、分岐点において成功した分岐と失敗した分岐を対比することで、修正された推論を生成する「文脈内思考ギャラフト（In-Context Thought Grafting）」を提案する。
身体化・対話・推論・計画に関するベンチマークでの実験により、強力なベースラインに対して一貫した改善が示され、特に長い推論チェーンを必要とする課題で顕著である。