AI Navigate

コンテキスト・ブートストラップ型強化学習

arXiv cs.LG / 2026/3/20

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • RLVR は、新規の推論パターンやドメイン特有の知識を必要とするタスクにおいて、探索の非効率性に悩まされる。
  • Context Bootstrapped Reinforcement Learning(CBRL)は、学習プロンプトの先頭に少数ショットのデモンストレーションを確率的に付加し、初期カリキュラムを高く設定してゼロへアニーリングすることでRLVRを拡張します。
  • この手法は、テスト時にデモンストレーションに依存するのではなく、方策が推論パターンを内部化するよう促し、探索効率とタスク全体の成功率を向上させます。
  • CBRL はアルゴリズムに依存しないことが特徴で、2つのモデルファミリーと5つのReasoning Gymタスクで検証され、ドメイン特化言語Qに対して実用性を示しています。

要約: 検証可能な報酬に基づく強化学習(RLVR)は、探索の非効率性に悩まされ、モデルが成功するロールアウトを生成するのに苦労し、学習信号が最小限になります。この課題は、新規の推論パターンやドメイン固有の知識の獲得を必要とするタスクにとって特に深刻です。この課題に対処するために、Context Bootstrapped Reinforcement Learning(CBRL)を提案します。CBRLは、RLVRのトレーニングを強化するために、訓練プロンプトへ数ショットのデモンストレーションを確率的に前置します。注入確率は早期探索をブートストラップするために高く始まり、最終的にはゼロへと減衰するカリキュラムに従います。これにより、方針はデモンストレーションから推論パターンを内部化し、テスト時にそれらに依存することを避けます。私たちはCBRLを2つのモデルファミリと5つのReasoning Gymタスクで検証します。結果は、CBRLが一貫して成功率を改善し、探索効率を向上させ、アルゴリズムに依存しないことを示しています。さらに、CBRLの実用性を、主流の言語慣習と大きく異なるドメイン固有のプログラミング言語Qに対して示します。