Skill-SD: マルチターンLLMエージェントのためのスキル条件付き自己蒸留

arXiv cs.LG / 2026/4/14

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

Skill-SD は、マルチターン LLM エージェント学習における強化学習のサンプル効率の低さ（疎な報酬・長いホライズン）を、自己蒸留で補う枠組みとして提案されています。
既存の OPSD（固定された特権教師によるトークンレベル教師信号）では多様な有効戦略を表現しにくく、RL と組み合わせると崩壊しやすい点が問題視されています。
Skill-SD は、完了したエージェント軌跡を自然言語の「スキル」に要約し、教師側だけに動的な特権情報として与えることで、学生は通常のタスクプロンプトの下で蒸留によりその知見を内面化します。
学習安定化のために、重要度付き逆 KL に基づく勾配補正付きのトークン蒸留損失を導入し、さらに改善する学生に応じて教師を動的に同期させます。
実験では agentic benchmarks にて、GRPO や OPD のバニラに対して AppWorld/Sokoban 等で大幅な性能向上が報告されています。

要旨: 強化学習（RL）は、多ターンのインタラクティブタスクのためにLLMエージェントを訓練するのに広く用いられている一方で、サンプル効率は疎な報酬と長いホライズンによって大幅に制限されています。オンポリシー自己蒸留（OPSD）は、正解（ground-truth）へのアクセスを持つ特権教師から、密なトークン単位の教師信号を与えることでこの問題を緩和します。しかし、このような固定された特権情報では、エージェントタスクにおける多様な妥当な戦略を捉えることができず、OPSDをRLに単純に組み合わせると、多くの場合訓練が崩壊（training collapse）に至ります。これらの制限に対処するために、本稿では、エージェント自身の軌跡を動的な訓練のみの教師信号へと変換する枠組み「Skill-SD」を導入します。完了した軌跡は、成功した振る舞い、ミス、ワークフローを記述する、コンパクトな自然言語スキルとして要約されます。これらのスキルは、教師に対してのみ動的な特権情報として機能し、学生は常に素のタスクプロンプトのもとで行動し、蒸留を通じてその誘導（guidance）を内面化することを学びます。訓練を安定化するために、勾配補正されたトークン単位の蒸留を提供する重要度付き逆KL（importance-weighted reverse-KL）損失を導出し、改善する学生に合わせて教師を動的に同期させます。エージェント型ベンチマークでの実験結果は、Skill-SDが標準のRLベースラインを大幅に上回ることを示しており、バニラGRPO（AppWorld/Sokobanで+14.0%/+10.9%）およびバニラOPD（+42.1%/+40.6%）のいずれも改善しています。プロジェクトページ: https://k1xe.github.io/skill-sd/

日産社長「V6のHEVは内製」「N7には驚いた」、長期戦略で一問一答

日経XTECH

防衛大手ラインメタル登壇、兵器にもソフト定義ハノーバーメッセ注目講演

日経XTECH

ラピダス版「光電融合型チップレット」 LSTC、千歳市に試作ライン

日経XTECH

「対応せざるを得ない」、Anthropicの「Mythos」に身構える日本の金融業界

日経XTECH

「Pixel 10a」の性能は前機種とほぼ同じ、日本限定色の価値は評価されるか

日経XTECH

Skill-SD: マルチターンLLMエージェントのためのスキル条件付き自己蒸留

要点

関連記事

日産社長「V6のHEVは内製」「N7には驚いた」、長期戦略で一問一答

防衛大手ラインメタル登壇、兵器にもソフト定義ハノーバーメッセ注目講演

ラピダス版「光電融合型チップレット」 LSTC、千歳市に試作ライン

「対応せざるを得ない」、Anthropicの「Mythos」に身構える日本の金融業界

「Pixel 10a」の性能は前機種とほぼ同じ、日本限定色の価値は評価されるか

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

日産社長「V6のHEVは内製」「N7には驚いた」、長期戦略で一問一答

防衛大手ラインメタル登壇、兵器にもソフト定義 ハノーバーメッセ注目講演

ラピダス版「光電融合型チップレット」 LSTC、千歳市に試作ライン

「対応せざるを得ない」、Anthropicの「Mythos」に身構える日本の金融業界

「Pixel 10a」の性能は前機種とほぼ同じ、日本限定色の価値は評価されるか

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

防衛大手ラインメタル登壇、兵器にもソフト定義ハノーバーメッセ注目講演