AI Navigate

リトリーバル補強型LLMエージェント: 経験から学ぶことを学ぶ

arXiv cs.AI / 2026/3/20

📰 ニュースIdeas & Deep AnalysisTools & Practical UsageModels & Research

要点

  • 本論文は、監視付きファインチューニングとリトリーバル補強生成を組み合わせた枠組みを提案し、LLMエージェントが取得済みの経験から学習し、未見のタスクへ一般化することを可能にする。
  • LoRAを用いた堅牢なSFT(監視付きファインチューニング)のレシピを確立し、いくつかの最先端のエージェント学習パイプラインを上回る。
  • 経験取得の主要な設計上の選択を分析しており、ストレージ、クエリ、軌跡選択を含む。
  • 取得した経験をファインチューニングプロセスに組み込むパイプラインを提示し、学習を学ぶエージェントの一般化とスケーラビリティの向上を示している。

要約:大規模言語モデル(LLMs)は汎用エージェントの開発を前進させましたが、未知のタスクに対する頑健な一般化を実現することは依然として大きな課題です。現在のアプローチは通常、ファインチューニング(微調整)または取得した経験を用いた訓練不要のメモリ強化生成のいずれかに依存しますが、いずれにも限界があります。ファインチューニングは新しいタスクへ外挿することにしばしば失敗し、経験検索は教師付きベースラインと比較してしばしば劣ることがあります。ここでは、これらのアプローチを組み合わせ、取得した軌跡を文脈内で効果的に活用するように、検索強化型LLMエージェントを訓練する方法を系統的に研究します。まず、LoRAを用いた堅牢な教師付きファインチューニング(SFT)レシピを確立し、いくつかの最先端エージェント訓練パイプラインを上回ります。次に、経験検索の主要な設計上の選択肢を詳しく分析し、ストレージ、クエリ、軌跡選択の最適な戦略を特定します。最後に、経験検索をファインチューニングプロセスに組み込むパイプラインを提案します。私たちの結果は、この組み合わせたアプローチが未知のタスクへの一般化を大幅に向上させ、経験から学ぶ能力を身につけるエージェントを構築するための、スケーラブルで効果的なフレームワークを提供することを示しています。