SkillLearnBench:実世界タスクにおけるエージェントのスキル生成のための継続学習手法のベンチマーク

arXiv cs.CL / 2026/4/23

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • この論文では、実世界のスキルに依存する20の検証済みタスク(15のサブドメイン)を対象に、LLMエージェントの継続的スキル学習手法を評価する新しいベンチマークSkillLearnBenchを提案している。
  • ベンチマークは、スキルの品質、実行の軌跡、そして最終的なタスク成果を評価し、時間とともにエージェントがスキルを獲得して活用できるかをより正確に測定する。
  • 実験の結果、継続学習は概ね「スキルなし」ベースラインを上回るものの、全タスクおよび全LLMにわたって一貫した改善は得られないことが示されている。
  • より強力なLLMへのスケーリングは生成スキルの改善につながるとは限らず、明確で再利用可能なワークフローを持つタスクでは改善が比較的一貫する一方、オープンエンドなタスクでは苦戦する。
  • 継続学習を外部フィードバックで複数回繰り返すことが実際の改善を促す一方で、自分自身のフィードバックだけに頼ると再帰的なドリフトを引き起こす可能性があることが分析で明らかにされている。

Abstract

スキルは、LLMエージェントに対してカスタマイズした指示、ワークフロー、ツールを用いて複雑な現実世界のタスクを実行させるための事実上の方法となっていますが、それらを自動的かつ効果的に学習する方法はいまだ明確ではありません。私たちは、継続的スキル学習手法を評価するための最初のベンチマークであるSkillLearnBenchを導入します。これは、現実世界のスキル分類法から導出された15のサブ領域にまたがる、検証済みのスキル依存タスク20件から構成され、3つのレベル――スキルの質、実行の軌跡、タスクの結果――で評価します。このベンチマークを用いて、近年の継続学習手法、すなわちワンショット、自己/教師によるフィードバック、そしてスキルクリエイタを活用して、エージェントの経験からスキルを生成する手法を評価します。その結果、いずれの継続学習手法もスキルなしのベースラインより改善しますが、安定した向上は依然として捉えにくいことが分かりました。どの手法も、すべてのタスクとLLMにまたがって一貫して優れるわけではなく、より強力なLLMへのスケーリングが確実に効果をもたらすわけでもありません。継続学習は、明確で再利用可能なワークフローを持つタスクでは改善しますが、オープンエンドなタスクでは苦戦し、より強力なLLMバックボーンの使用も常により良いスキルにつながるとは限りません。さらに分析により、継続学習における複数回の反復は外部フィードバックを通じて本質的な改善を促す一方で、自己フィードバックだけでは再帰的なドリフトを引き起こすことが明らかになりました。データとコードはオープンソースで、さらなる自動スキル生成および継続的学習手法の研究を可能にするために https://github.com/cxcscmu/SkillLearnBench で公開しています。