要約: 大規模言語モデルは、豊かなフィードバックを提供する環境との長期的な相互作用を通じて、計画を立て、行動し、誤りから回復しなければならない自律エージェントとして、ますます展開されつつある。
しかし、現在主流の成果指向のポストトレーニング手法(例:検証可能な報酬を伴う強化学習)は、主に最終的な成功信号を最適化し、豊かな環境フィードバックを十分に活用していない。
その結果、しばしば分布の鋭化を招く。ポリシーはすでに成功している振る舞いの狭い範囲を再現する能力を高める一方で、長期的な設定で問題解決能力を拡張するのに必要な、環境フィードバックに根ざしたエージェンシーを改善できず、(例:Pass@k)を高めることが難しくなる。
これに対処するため、反省的経験からのフィードバックを根拠としたエージェンシーの学習を行う LEAFE(Learning Feedback-Grounded Agency from Reflective Experience)という枠組みを提案します。具体的には、探査の過程で、エージェントは環境フィードバックを実行可能な経験に要約し、以前の意思決定点に遡って、修正した行動で代替の分岐を探索します。次に、これらの経験に基づく修正を監督付きファインチューニングを通じてモデルに蒸留し、将来の相互作用でポリシーがより効果的に回復できるようにします。一定の相互作用予算のもと、対話型のコーディングおよびエージェント型タスクの多様な集合を横断して、LEAFEは基盤モデルに対してPass@1を一貫して改善し、結果主導のベースライン(GRPO)や Early Experience のような経験ベースの手法よりも高い Pass@k を達成します。Pass@128で最大14%の向上を得られます。