SKILL0: スキル内部化のためのインコンテキスト・エージェント的強化学習

arXiv cs.LG / 2026/4/3

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、推論時のスキル検索に頼るのではなく、スキルをモデルパラメータへ内部化することを目的としたインコンテキスト強化学習手法SKILL0を提案する。
SKILL0では、完全なスキルのコンテキストを徐々に撤退させる学習カリキュラムを用いる。また、スキルを事前にカテゴリごとにオフラインでグループ化し、相互作用履歴を含むコンパクトなビジュアル・プロンプトとしてスキルを提示することで、学習したツール呼び出しとマルチターン課題達成を行えるようにする。
動的カリキュラムは、各スキルファイルのオンポリシー有用性を評価し、減衰するトークン／インタラクション予算の範囲内で性能向上を継続するスキルのみを保持する。その結果、最終的にはランタイムでの検索なしに完全なゼロショット挙動を可能にする。
実験の結果、SKILL0は標準的な強化学習ベースラインより改善し、ALFWorldで+9.7%、Search-QAで+6.6%を報告している。さらに、1ステップあたりのコンテキストを0.5kトークン未満に維持している。
著者らはコードを公開GitHubリポジトリで公開しており、再現性の確保とスキル内部化のさらなる探索を支援する。

Abstract

エージェントのスキルとは、推論時にエージェントが動的に読み込む、手続き的知識と実行可能リソースの構造化されたパッケージのことであり、LLMエージェントを拡張する信頼性の高い手段として定着してきました。しかし、推論時のスキル拡張には本質的な制約があります。検索ノイズは無関係な指示を混入させ、注入されるスキル内容は大きなトークン・オーバーヘッドを課し、モデルは知識を本当に獲得するわけではなく、単にそれに従うだけです。そこで私たちは、スキルを代わりにモデルのパラメータへ内在化できるのかを問い、実行時のスキル検索なしでゼロショットの自律的ふるまいを可能にすることを考えます。本研究では、スキルの内在化のためのインコンテキスト強化学習フレームワークである SKILL0 を提案します。SKILL0 は、スキルの全コンテキストから開始し、そこから段階的にスキル情報を引き上げていく、学習時のカリキュラムを導入します。スキルはカテゴリごとにオフラインでグループ化され、インタラクション履歴とともにコンパクトな視覚コンテキストとしてレンダリングされます。これにより、ツール呼び出しとマルチターンのタスク完了をモデルに教えます。次にダイナミック・カリキュラムが各スキルファイルのオンポリシー有用性を評価し、現在のポリシーが（線形に減衰する予算の範囲内で）引き続き恩恵を受けるものだけを保持します。そしてエージェントが完全なゼロショット設定で動作するまで、この過程が続きます。大規模なエージェント指向の実験により、SKILL0 は標準的な RL ベースラインに対して大幅な改善を達成することが示されています（ALFWorld で +9.7 %、Search-QA で +6.6 %）。さらに、ステップあたり 0.5k トークン未満という非常に効率的なコンテキストを維持しています。私たちのコードは https://github.com/ZJU-REAL/SkillZero で公開されています。