SKILL0: スキル内部化のためのインコンテキスト・エージェント的強化学習
arXiv cs.LG / 2026/4/3
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、推論時のスキル検索に頼るのではなく、スキルをモデルパラメータへ内部化することを目的としたインコンテキスト強化学習手法SKILL0を提案する。
- SKILL0では、完全なスキルのコンテキストを徐々に撤退させる学習カリキュラムを用いる。また、スキルを事前にカテゴリごとにオフラインでグループ化し、相互作用履歴を含むコンパクトなビジュアル・プロンプトとしてスキルを提示することで、学習したツール呼び出しとマルチターン課題達成を行えるようにする。
- 動的カリキュラムは、各スキルファイルのオンポリシー有用性を評価し、減衰するトークン/インタラクション予算の範囲内で性能向上を継続するスキルのみを保持する。その結果、最終的にはランタイムでの検索なしに完全なゼロショット挙動を可能にする。
- 実験の結果、SKILL0は標準的な強化学習ベースラインより改善し、ALFWorldで+9.7%、Search-QAで+6.6%を報告している。さらに、1ステップあたりのコンテキストを0.5kトークン未満に維持している。
- 著者らはコードを公開GitHubリポジトリで公開しており、再現性の確保とスキル内部化のさらなる探索を支援する。




