SkillLearnBench:実世界タスクにおけるエージェントのスキル生成のための継続学習手法のベンチマーク
arXiv cs.CL / 2026/4/23
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- この論文では、実世界のスキルに依存する20の検証済みタスク(15のサブドメイン)を対象に、LLMエージェントの継続的スキル学習手法を評価する新しいベンチマークSkillLearnBenchを提案している。
- ベンチマークは、スキルの品質、実行の軌跡、そして最終的なタスク成果を評価し、時間とともにエージェントがスキルを獲得して活用できるかをより正確に測定する。
- 実験の結果、継続学習は概ね「スキルなし」ベースラインを上回るものの、全タスクおよび全LLMにわたって一貫した改善は得られないことが示されている。
- より強力なLLMへのスケーリングは生成スキルの改善につながるとは限らず、明確で再利用可能なワークフローを持つタスクでは改善が比較的一貫する一方、オープンエンドなタスクでは苦戦する。
- 継続学習を外部フィードバックで複数回繰り返すことが実際の改善を促す一方で、自分自身のフィードバックだけに頼ると再帰的なドリフトを引き起こす可能性があることが分析で明らかにされている。