広告

エージェント型強化学習のためのダイナミックなデュアル粒度スキルバンク

arXiv cs.AI / 2026/3/31

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文では、エージェント型強化学習向けのダイナミックなデュアル粒度スキルバンクであるD2Skillを提案し、再利用可能な経験をタスクレベルのスキル(ガイダンス用)とステップレベルのスキル(細かな意思決定とエラー訂正用)に分離する。
  • D2Skillは、ペアになったベースラインとスキル注入ロールアウトを用いて、方策とスキルバンクを共同で学習する。性能差から hindsight(後知恵)に基づく効用信号を導出し、その信号により両スキルおよび方策最適化を更新する。
  • スキルバンクは学習時の経験のみから構築され、リフレクションによって継続的に拡張・維持される。効用を意識した検索と、記憶の有効性と最新性を保つためのプルーニングにより運用する。
  • ALFWorldおよびWebShopで、Qwen2.5-7B-InstructとQwen3-4B-Instruct-2507を用いた実験により、スキルなしのベースラインに対して一貫して成功率が10〜20ポイント向上すると報告されている。
  • アブレーションにより、得られた改善にはデュアル粒度モデリングとダイナミックなスキル維持の両方が不可欠であることが示される。また、学習されたスキルは効用が高く、評価設定間での転移が良好であり、オーバーヘッドはわずかである。

概要: エージェント型強化学習(RL)は再利用可能な経験から大きな恩恵を受け得る一方で、既存のスキルベース手法は主に軌跡レベルの指針を抽出するにとどまることが多く、進化し続けるスキル記憶を維持するための原理的な仕組みが欠けていることがしばしばあります。そこで本研究では、エージェント型RL向けの動的デュアル粒度スキルバンクであるD2Skillを提案します。D2Skillは再利用可能な経験を、高レベルのガイダンスのためのタスクスキルと、きめ細かな意思決定支援およびエラー訂正のためのステップスキルに整理します。D2Skillは、同一のポリシーのもとで、ペアとなるベースラインロールアウトとスキル注入ロールアウトを用いて、ポリシーとスキルバンクを共同で学習します。そしてそれらの性能ギャップを用いて、スキル更新とポリシー最適化の両方のための hindsight(後知)効用信号を導出します。スキルバンクは学習時の経験だけから完全に構築され、反省(reflection)によって継続的に拡張され、効用を意識した検索と剪定(pruning)によって維持されます。ALFWorld および WebShop において、Qwen2.5-7B-Instruct と Qwen3-4B-Instruct-2507 を用いた実験では、D2Skillがスキルなしのベースラインに比べて成功率を一貫して10〜20ポイント改善することが示されました。さらに、アブレーションおよび分析により、これらの向上にはデュアル粒度のスキルモデリングと動的なスキル維持の双方が重要であることが明らかになっています。また、学習されたスキルはより高い効用を示し、評価設定間で転移し、学習時のオーバーヘッドはわずかな範囲にとどまります。

広告