RLはLLMエージェントの一般化を改善できるか?実証的研究

arXiv cs.AI / 2026/3/13

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 強化ファインチューニング(RFT)は、同一環境内のタスク難易度の違いを跨いで良く一般化する。
  • RFTは意味的事前知識と観測/アクションインターフェースのシフトにより、未知環境への転移が弱いことを示す。
  • 逐次的な複数環境訓練は、上流での忘却を最小限に抑えつつ下流の利益を生み出す。
  • 環境間での訓練を混合することは、見られた環境と未知の環境の全体的なバランスを改善する。

要旨:強化ファインチューニング(RFT)は、環境からのフィードバックに基づくマルチターンの意思決定を実行するLLMエージェントの訓練に有望であることを示している。しかし、既存の評価の多くは依然としてドメイン内にとどまり、訓練と評価は同じ環境、あるいは同じタスクで行われている。実世界の運用では、エージェントは未知の環境で、背景知識、観測スペース、行動インターフェースが異なる場合がある。こうしたシフトの下でRFTの一般化プロファイルを特徴づけるため、以下の3軸で系統的な研究を実施する。(1) 環境内のタスク難易度を跨ぐ一般化、(2) 未知環境への環境横断転移、(3) 転移と忘却を定量化する逐次的な複数環境訓練。私たちの結果は、RFTが環境内のタスク難易度を跨いで良く一般化する一方、未知環境への転移は弱いことを示しており、意味的事前知識と観測/アクションインターフェースのシフトの両方と相関している。対照的に、逐次訓練は上流での忘却を最小限に抑えつつ有望な下流の利益をもたらし、環境間の混合訓練は全体的なバランスを改善する。さらに、詳細な分析とより深い洞察を提供し、我々の研究がコミュニティが一般化可能なLLMエージェントを開発・展開するのに役立つことを期待する。