SkillFlow:自律エージェントのための生涯スキル発見と進化のベンチマーク

arXiv cs.AI / 2026/4/21

📰 ニュースSignals & Early TrendsModels & Research

要点

  • SkillFlowは、新しいarXivのベンチマークであり、自律エージェントが与えられたスキルを使うだけでなく、経験からスキルを発見し、失敗後に修復し、時間とともに再利用可能なスキルライブラリを継続的に進化できるかを評価します。
  • ベンチマークは20のタスクファミリにまたがる166タスクで構成され、DAEF(Domain-Agnostic Execution Flow)のワークフレームに基づいて構築されるため、エージェント手順の一貫性が保たれます。
  • 評価では、Agentic Lifelong Learningプロトコルを用い、エージェントはスキルなしで開始して各ファミリ内のタスクを順次解き、軌跡とルーブリックに基づく「スキルパッチ」を作成し、更新したライブラリを継続して持ち越します。
  • 実験では、生涯スキル進化の質に大きなギャップがあることが示され、Claude Opus 4.6では成功率が62.65%から71.08%へ(+8.43ポイント)改善する一方で、他モデルはスキル使用量が多い場合でも伸びが小さい、もしくは改善しない結果になっています。
  • SkillFlowは、この方向性に対する構造化されたテストベッドであるだけでなく、生涯評価におけるスキル発見・パッチ適用・転移、および主な失敗モードを深く分析するものとして位置づけられています。

要旨: 自律エージェントの能力フロンティアが拡大し続けるにつれ、彼らはプラグアンドプレイの外部スキルによって、ますます専門的なタスクを完了できるようになっています。しかし、現在のベンチマークの多くは、モデルが与えられたスキルを使えるかどうかを主に試しており、スキルを経験から発見できるか、失敗後にスキルを修復できるか、そして時間の経過とともに一貫したスキルライブラリを維持できるかといった点は未解決のままです。私たちは SkillFlow を提案します。これは、20のファミリにまたがる166タスクからなるベンチマークであり、各ファミリ内でのタスク構築が、エージェントのワークフローの枠組みを定義するドメイン非依存実行フロー(DAEF)に従うことで、これらのタスクが一貫したワークフローを共有できるようにしています。エージェントは、ライフロングなエージェンティック・ラーニング(Agentic Lifelong Learning)のプロトコルにより評価されます。このプロトコルでは、エージェントはスキルなしで開始し、各ファミリ内でタスクを順次に解き、軌跡とルーブリックに基づくスキル・パッチを通じて教訓を外部化し、更新されたライブラリを次へと持ち越します。実験の結果、この方向性には大きな能力ギャップがあることが明らかになりました。Claude Opus 4.6 では、ライフロングなスキル進化によってタスク成功が 62.65% から 71.08% へ向上します(+8.43ポイント)。しかし、高いスキル使用は必ずしも高い有用性を意味しません。Kimi K2.5 は 66.87% のスキル使用にもかかわらず、+0.60ポイントの増加にとどまります。一方、Qwen-Coder-Next は 44.58% のタスク完了率にしか到達せず、さらにバニラ設定に対して退行します。SkillFlow は、この方向性のための構造化されたテストベッドと、ライフロング評価下におけるスキル発見、パッチ適用、転移、およびそれらの失敗モードに関する詳細な実証分析を提供します。