SKILL0: Agentのスキルをパラメータに「内化」する新たなRLフレームワーク
Zenn / 2026/4/8
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- SKILL0は、エージェントの「スキル」をRLの学習対象となるパラメータとして内化する新しい枠組みを提案している。
- 従来のようにスキルを別管理・別推論するのではなく、学習過程に統合することでスキル獲得の仕組みを再設計することが狙いだ。
- Agent向けRLにおいて、複数スキルの扱いを学習効率・汎化の観点から改善できる可能性が示唆されている。
- 「Agentの能力を表現する方法」を直接RL側の表現に落とし込むため、実装・評価の指針にも影響しうる。
TL;DR
LLM Agentの性能を支える「スキル」は、従来推論時に外部から注入していたが、検索ノイズやトークン増大という根本的な課題があった
SKILL0は、スキルをモデルのパラメータに内化する画期的なアプローチ。訓練時にスキルコンテキストを段階的に撤去するカリキュラム学習を導入
動的カリキュラムは各スキルの「ヘルプフルネス(有用性)」を評価し、不要なスキルを自動で削減。最終的にゼロショットで自律動作
ALFWorldタスクで**+9.7%、Search-QAで+6.6%の改善を達成しつつ、コンテキスト長は0.5kトークン/ステップ未満**に抑制
なぜこの論文が重要か
...
この記事の続きは原文サイトでお読みいただけます。
原文を読む →

