Trace2Skill:軌跡ローカルの教訓を汎用可能なエージェントスキルへ蒸留する

arXiv cs.AI / 2026/3/27

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • Trace2Skillは、LLMエージェント向けに、多様な軌跡レベルの実行経験を、転移可能なドメイン固有スキルへ蒸留するための新しい枠組みであり、人手による作成のスケーラビリティ限界と、素朴な自動化手法の脆弱性に対処する。
  • 本手法では、実行例の広範なプールを分析するためのサブエージェントの並列フリートを用い、その後、帰納的推論によって抽出された軌跡固有の教訓を階層的に統合し、衝突のない統一されたスキルディレクトリへとまとめ上げる。
  • Trace2Skillは、既存の人手で書かれたスキルを深めることも、ゼロから新しいスキルを生成することもでき、汎化可能でない、軌跡ローカルなパターンへの過適合を避けることを目指す。
  • スプレッドシート、VisionQA、数学推論に関する実験では、強力なベースライン(Anthropicの公式xlsxスキルを含む)に対して大きな改善が示され、LLMモデルのスケール間での転移効果があり、分布外(OOD)設定にも一般化する。
  • 本論文では、Qwen3.5-35Bの軌跡で進化したスキルが、パラメータ更新や外部リトリーバルモジュール、大規模モデルサイズを伴うことなく、より大きなQwen3.5-122Bエージェントを大幅に改善できることを報告している(WikiTableQuestionsで最大57.65の絶対的なポイント向上)。

Abstract

大規模言語モデル(LLM)エージェントにドメイン固有のスキルを搭載することは、複雑なタスクに取り組むうえで極めて重要です。しかし、手作業による作成は深刻なスケーラビリティのボトルネックを生みます。逆に、自動化されたスキル生成は、浅いパラメトリック知識に依存するか、あるいは一般化できない軌道ローカルな教訓に対して逐次的に過剰適合してしまうため、脆弱あるいは断片化した結果になりがちです。これを克服するために、私たちはTrace2Skillという枠組みを提案します。これは、人間の専門家がスキルを著述する方法を模倣するもので、単一の包括的なガイドへ蒸留する前に、広範な実行経験を全体的に分析します。個々の軌道に逐次的に反応するのではなく、Trace2Skillは多様な実行群を解析するためのサブエージェントの並列部隊を投入します。軌道固有の教訓を抽出し、帰納的推論によってそれらを階層的に統合して、対立のない統一的なスキルディレクトリへとまとめ上げます。Trace2Skillは、既存の人手によるスキルを深めることも、ゼロから新しいスキルを作り出すことも両方に対応します。スプレッドシート、VisionQA、数学推論といった難しいドメインでの実験では、Anthropicの公式xlsxスキルを含む強力なベースラインに比べて、Trace2Skillが大幅に性能を向上させることが示されます。重要なのは、この「軌道に根ざした」進化が、単にタスク事例やモデル固有の癖を暗記するだけではない点です。進化したスキルは、LLMのスケールを越えて転移し、OOD設定でも一般化します。例えば、Qwen3.5-35Bが自分自身の軌道で進化させたスキルは、Qwen3.5-122BエージェントのWikiTableQuestionsにおける性能を最大で57.65絶対パーセンテージポイント向上させました。最終的に、私たちの結果は、複雑なエージェント経験を、非常に転用可能な宣言的スキルとしてパッケージ化できることを示しています。これにはパラメータ更新も外部の検索モジュールも不要であり、35Bパラメータまでのオープンソースモデルを用いて実現できます。