AI Navigate

反省的経験からの主体性の内在化

arXiv cs.AI / 2026/3/18

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • LEAFE は、反省的経験から回復主体性を内在化するフレームワークであり、LLMs における長期的なエージェント性能を向上させる。
  • 結果指向の事後訓練法の限界に対処するため、豊富な環境フィードバックを活用して分布の鋭化を防ぐ。
  • 探索中、エージェントはフィードバックを要約し、以前の意思決定へ遡って代替の分岐を探索し、その後、訂正をモデルへ蒸留するための教師あり微調整を行う。
  • インタラクティブなコーディングおよびエージェント系タスク全体の実証結果は、LEAFE が Pass@1 を改善し、GRPO および Early Experience のベースラインを上回り、Pass@128 で最大 14% の向上を示した。

要約: 大規模言語モデルは、豊かなフィードバックを提供する環境との長期的な相互作用を通じて、計画を立て、行動し、誤りから回復しなければならない自律エージェントとして、ますます展開されつつある。
しかし、現在主流の成果指向のポストトレーニング手法(例:検証可能な報酬を伴う強化学習)は、主に最終的な成功信号を最適化し、豊かな環境フィードバックを十分に活用していない。
その結果、しばしば分布の鋭化を招く。ポリシーはすでに成功している振る舞いの狭い範囲を再現する能力を高める一方で、長期的な設定で問題解決能力を拡張するのに必要な、環境フィードバックに根ざしたエージェンシーを改善できず、(例:Pass@k)を高めることが難しくなる。

これに対処するため、反省的経験からのフィードバックを根拠としたエージェンシーの学習を行う LEAFE(Learning Feedback-Grounded Agency from Reflective Experience)という枠組みを提案します。具体的には、探査の過程で、エージェントは環境フィードバックを実行可能な経験に要約し、以前の意思決定点に遡って、修正した行動で代替の分岐を探索します。次に、これらの経験に基づく修正を監督付きファインチューニングを通じてモデルに蒸留し、将来の相互作用でポリシーがより効果的に回復できるようにします。一定の相互作用予算のもと、対話型のコーディングおよびエージェント型タスクの多様な集合を横断して、LEAFEは基盤モデルに対してPass@1を一貫して改善し、結果主導のベースライン(GRPO)や Early Experience のような経験ベースの手法よりも高い Pass@k を達成します。Pass@128で最大14%の向上を得られます。