効果的な体験学習に向けて:活用と内面化のためのデュアル・ガイダンス

arXiv cs.LG / 2026/3/26

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、LLMのRLVRベースの学習における現状と、人間が外部の経験と内面化された知識を組み合わせて学習する仕組みとの間にギャップがあることを指摘している。
  • 過去の軌跡から構築した外部の経験バンクと、モデルの内的知識の両方を用いて、RLVR学習中の探索を導く「Dual Guidance Optimization(DGO)」を提案する。
  • DGOは閉ループとして機能し、新たな軌跡が経験バンクを改善すると同時にモデルのパラメータを更新し、反復的に活用と内面化を強化する。
  • 実験の報告によれば、DGOは推論タスクにおいてベースラインのRLVR学習手法を一貫して上回り、経験からのより効果的な学習が示される。

Abstract

近年、強化学習~(RL)は、大規模言語モデル~(LLM)の能力を向上させるための重要なアプローチになっています。特に、検証可能な報酬からの強化学習~(RLVR)は、推論タスクに対する有望なパラダイムとして登場しました。しかし、既存のRLベースの訓練は依然として、人間の学習を大まかに近似するにとどまっています。人間の学習者は、探索を導き、有用な軌跡を徐々に安定した知識として内面化するために、外部経験と内部経験の両方を活用します。このギャップに動機づけられ、次の問いを考えます:LLMは、RLVR訓練中に経験をより適切に活用し内面化するには、どのようにすればよいのでしょうか?この問いに答えるために、 extbf{D}ual extbf{G}uidance extbf{O}ptimization~( extbf{DGO})、すなわち、学習効果を高めるために extit{外部経験}と extit{内部経験}を活用する統一的フレームワークを提案します。具体的には、DGOはまず、これまでに探索された軌跡から経験バンクを構築します。続いて方策は、経験バンクとモデルの内部知識の双方による共同のガイダンスのもとで探索を行います。得られた軌跡はさらに経験バンクを洗練し、モデルのパラメータを最適化するために用いられ、経験の活用と内面化のクローズドループを形成します。実験の結果、DGOは一貫してベースライン手法を上回ることが示されており、経験をより適切に活用し内面化することで、より効果的な推論が可能になることを示唆しています。