SkillFlow：自律エージェントのための生涯スキル発見と進化のベンチマーク

arXiv cs.AI / 2026/4/21

📰 ニュースSignals & Early TrendsModels & Research

共有:

要点

SkillFlowは、新しいarXivのベンチマークであり、自律エージェントが与えられたスキルを使うだけでなく、経験からスキルを発見し、失敗後に修復し、時間とともに再利用可能なスキルライブラリを継続的に進化できるかを評価します。
ベンチマークは20のタスクファミリにまたがる166タスクで構成され、DAEF（Domain-Agnostic Execution Flow）のワークフレームに基づいて構築されるため、エージェント手順の一貫性が保たれます。
評価では、Agentic Lifelong Learningプロトコルを用い、エージェントはスキルなしで開始して各ファミリ内のタスクを順次解き、軌跡とルーブリックに基づく「スキルパッチ」を作成し、更新したライブラリを継続して持ち越します。
実験では、生涯スキル進化の質に大きなギャップがあることが示され、Claude Opus 4.6では成功率が62.65%から71.08%へ（+8.43ポイント）改善する一方で、他モデルはスキル使用量が多い場合でも伸びが小さい、もしくは改善しない結果になっています。
SkillFlowは、この方向性に対する構造化されたテストベッドであるだけでなく、生涯評価におけるスキル発見・パッチ適用・転移、および主な失敗モードを深く分析するものとして位置づけられています。

要旨: 自律エージェントの能力フロンティアが拡大し続けるにつれ、彼らはプラグアンドプレイの外部スキルによって、ますます専門的なタスクを完了できるようになっています。しかし、現在のベンチマークの多くは、モデルが与えられたスキルを使えるかどうかを主に試しており、スキルを経験から発見できるか、失敗後にスキルを修復できるか、そして時間の経過とともに一貫したスキルライブラリを維持できるかといった点は未解決のままです。私たちは SkillFlow を提案します。これは、20のファミリにまたがる166タスクからなるベンチマークであり、各ファミリ内でのタスク構築が、エージェントのワークフローの枠組みを定義するドメイン非依存実行フロー（DAEF）に従うことで、これらのタスクが一貫したワークフローを共有できるようにしています。エージェントは、ライフロングなエージェンティック・ラーニング（Agentic Lifelong Learning）のプロトコルにより評価されます。このプロトコルでは、エージェントはスキルなしで開始し、各ファミリ内でタスクを順次に解き、軌跡とルーブリックに基づくスキル・パッチを通じて教訓を外部化し、更新されたライブラリを次へと持ち越します。実験の結果、この方向性には大きな能力ギャップがあることが明らかになりました。Claude Opus 4.6 では、ライフロングなスキル進化によってタスク成功が 62.65% から 71.08% へ向上します（+8.43ポイント）。しかし、高いスキル使用は必ずしも高い有用性を意味しません。Kimi K2.5 は 66.87% のスキル使用にもかかわらず、+0.60ポイントの増加にとどまります。一方、Qwen-Coder-Next は 44.58% のタスク完了率にしか到達せず、さらにバニラ設定に対して退行します。SkillFlow は、この方向性のための構造化されたテストベッドと、ライフロング評価下におけるスキル発見、パッチ適用、転移、およびそれらの失敗モードに関する詳細な実証分析を提供します。

AIエージェントで人事制度が耐えられない話

note

ミツカル｜生成AIツール専門比較・ランキングメディア【毎週火・木・土の18:00に投稿！】

note

【本音検証】Claude Opus 4.7は本当にすごい？5項目の評価を本音レビュー

note

【個人開発ストーリー】サボったらAIが煽ってくる筋トレアプリ「FitLoop」を6日で作ってApp Storeに出した全記録

note

「世界平和」を同じプロンプトで問うたら、AIの個性が爆発した夜。Gemini vs ChatGPT今夜開幕したw｜夜のAI対話録#9

note

SkillFlow：自律エージェントのための生涯スキル発見と進化のベンチマーク

要点

関連記事

AIエージェントで人事制度が耐えられない話

ミツカル｜生成AIツール専門比較・ランキングメディア【毎週火・木・土の18:00に投稿！】

【本音検証】Claude Opus 4.7は本当にすごい？5項目の評価を本音レビュー

【個人開発ストーリー】サボったらAIが煽ってくる筋トレアプリ「FitLoop」を6日で作ってApp Storeに出した全記録

「世界平和」を同じプロンプトで問うたら、AIの個性が爆発した夜。Gemini vs ChatGPT今夜開幕したw｜夜のAI対話録#9

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

AIエージェントで人事制度が耐えられない話

ミツカル｜生成AIツール専門比較・ランキングメディア【毎週 火・木・土の18:00に投稿！】

【本音検証】Claude Opus 4.7は本当にすごい？5項目の評価を本音レビュー

【個人開発ストーリー】サボったらAIが煽ってくる筋トレアプリ「FitLoop」を6日で作ってApp Storeに出した全記録

「世界平和」を同じプロンプトで問うたら、AIの個性が爆発した夜。Gemini vs ChatGPT今夜開幕したw｜夜のAI対話録#9

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

ミツカル｜生成AIツール専門比較・ランキングメディア【毎週火・木・土の18:00に投稿！】