Skill-SD: マルチターンLLMエージェントのためのスキル条件付き自己蒸留

arXiv cs.LG / 2026/4/14

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • Skill-SD は、マルチターン LLM エージェント学習における強化学習のサンプル効率の低さ(疎な報酬・長いホライズン)を、自己蒸留で補う枠組みとして提案されています。
  • 既存の OPSD(固定された特権教師によるトークンレベル教師信号)では多様な有効戦略を表現しにくく、RL と組み合わせると崩壊しやすい点が問題視されています。
  • Skill-SD は、完了したエージェント軌跡を自然言語の「スキル」に要約し、教師側だけに動的な特権情報として与えることで、学生は通常のタスクプロンプトの下で蒸留によりその知見を内面化します。
  • 学習安定化のために、重要度付き逆 KL に基づく勾配補正付きのトークン蒸留損失を導入し、さらに改善する学生に応じて教師を動的に同期させます。
  • 実験では agentic benchmarks にて、GRPO や OPD のバニラに対して AppWorld/Sokoban 等で大幅な性能向上が報告されています。

要旨: 強化学習(RL)は、多ターンのインタラクティブタスクのためにLLMエージェントを訓練するのに広く用いられている一方で、サンプル効率は疎な報酬と長いホライズンによって大幅に制限されています。オンポリシー自己蒸留(OPSD)は、正解(ground-truth)へのアクセスを持つ特権教師から、密なトークン単位の教師信号を与えることでこの問題を緩和します。しかし、このような固定された特権情報では、エージェントタスクにおける多様な妥当な戦略を捉えることができず、OPSDをRLに単純に組み合わせると、多くの場合訓練が崩壊(training collapse)に至ります。これらの制限に対処するために、本稿では、エージェント自身の軌跡を動的な訓練のみの教師信号へと変換する枠組み「Skill-SD」を導入します。完了した軌跡は、成功した振る舞い、ミス、ワークフローを記述する、コンパクトな自然言語スキルとして要約されます。これらのスキルは、教師に対してのみ動的な特権情報として機能し、学生は常に素のタスクプロンプトのもとで行動し、蒸留を通じてその誘導(guidance)を内面化することを学びます。訓練を安定化するために、勾配補正されたトークン単位の蒸留を提供する重要度付き逆KL(importance-weighted reverse-KL)損失を導出し、改善する学生に合わせて教師を動的に同期させます。エージェント型ベンチマークでの実験結果は、Skill-SDが標準のRLベースラインを大幅に上回ることを示しており、バニラGRPO(AppWorld/Sokobanで+14.0%/+10.9%)およびバニラOPD(+42.1%/+40.6%)のいずれも改善しています。プロジェクトページ: https://k1xe.github.io/skill-sd/