Skills-Coach:学習不要のGRPOによる自己進化型スキル最適化フレームワーク

arXiv cs.CL / 2026/5/1

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • Skills-Coachは、LLMベースのエージェントが自己進化によって能力を拡張する方法を高めることを目的とした新しい自動化フレームワークであり、既存のスキル体系の断片化という課題に取り組みます。
  • このフレームワークは「多様なタスク生成」「軽量な最適化(スキルのプロンプトと対応コード)」「比較実行と評価」「追跡可能な評価(指定基準に基づく厳密な評価)」の4モジュールで構成され、スキルを体系的にテストして改善します。
  • 「training-free GRPO」により追加学習なしでスキルを最適化し、仮想モードと実モードの両方で実行・検証できる柔軟性を備えています。
  • 検証には、48種類の多様なスキルをカバーするベンチマークデータセット「Skill-X」を導入し、実験の結果として幅広いカテゴリでスキル能力が有意に向上したことを示しています。
  • 総じてSkills-Coachは、知的アプリケーションに必要な包括的なスキル網羅を備えた、より頑健で適応性の高いLLMエージェントの開発を後押しする取り組みとして位置づけられています。

Abstract

大規模言語モデル(LLM)ベースのエージェントにおけるスキルの自己進化を大幅に強化することを目的とした、新しい自動化フレームワーク「Skills-Coach」を提案します。スキル・エコシステムが現在抱えている断片化の問題に対処しつつ、Skills-Coachはスキル能力の境界を探究し、それによって知的アプリケーションに不可欠な包括的なコンピタンスのカバレッジを実現します。このフレームワークは4つの中核モジュールから構成されます。すなわち、さまざまなスキルに対する包括的なテストスイートを体系的に作成する「多様なタスク生成モジュール」、スキルプロンプトおよびそれに対応するコードを最適化することに特化した「軽量最適化モジュール」、元のスキルと最適化後のスキルの両方を実行し評価するための「比較実行モジュール」、および指定された基準に照らして性能を厳密に評価する「トレーサブル(追跡可能な)評価モジュール」です。Skills-Coachは、仮想モードと実モードの2つの実行オプションを柔軟に提供します。その有効性を検証するために、48の多様なスキルから成る包括的なベンチマークデータセット「Skill-X」を導入します。実験結果により、Skills-Coachは幅広いカテゴリにおいてスキル能力に関する顕著な性能向上を達成することが示され、その堅牢で適応力の高いLLMベースのエージェントの開発を前進させる可能性が強調されています。