コンテキスト・ブートストラップ型強化学習

arXiv cs.LG / 2026/3/20

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

RLVR は、新規の推論パターンやドメイン特有の知識を必要とするタスクにおいて、探索の非効率性に悩まされる。
Context Bootstrapped Reinforcement Learning（CBRL）は、学習プロンプトの先頭に少数ショットのデモンストレーションを確率的に付加し、初期カリキュラムを高く設定してゼロへアニーリングすることでRLVRを拡張します。
この手法は、テスト時にデモンストレーションに依存するのではなく、方策が推論パターンを内部化するよう促し、探索効率とタスク全体の成功率を向上させます。
CBRL はアルゴリズムに依存しないことが特徴で、2つのモデルファミリーと5つのReasoning Gymタスクで検証され、ドメイン特化言語Qに対して実用性を示しています。

要約: 検証可能な報酬に基づく強化学習（RLVR）は、探索の非効率性に悩まされ、モデルが成功するロールアウトを生成するのに苦労し、学習信号が最小限になります。この課題は、新規の推論パターンやドメイン固有の知識の獲得を必要とするタスクにとって特に深刻です。この課題に対処するために、Context Bootstrapped Reinforcement Learning（CBRL）を提案します。CBRLは、RLVRのトレーニングを強化するために、訓練プロンプトへ数ショットのデモンストレーションを確率的に前置します。注入確率は早期探索をブートストラップするために高く始まり、最終的にはゼロへと減衰するカリキュラムに従います。これにより、方針はデモンストレーションから推論パターンを内部化し、テスト時にそれらに依存することを避けます。私たちはCBRLを2つのモデルファミリと5つのReasoning Gymタスクで検証します。結果は、CBRLが一貫して成功率を改善し、探索効率を向上させ、アルゴリズムに依存しないことを示しています。さらに、CBRLの実用性を、主流の言語慣習と大きく異なるドメイン固有のプログラミング言語Qに対して示します。

半導体FABにLLMを持ち込んだら何が起きるか — ArXiv論文5本を現場目線でぶった斬る

Qiita

エッジコンピューティングとローカル処理への大規模な移行

Dev.to

仕様駆動開発における自己改良エージェント

Dev.to

Week 3: LLMでの構築を始める前に『退屈な』MLを学ぶ理由

Dev.to

三エージェント・プロトコルは移植可能だ。規律は移植不可能だ。

Dev.to

コンテキスト・ブートストラップ型強化学習

要点

関連記事

半導体FABにLLMを持ち込んだら何が起きるか — ArXiv論文5本を現場目線でぶった斬る

エッジコンピューティングとローカル処理への大規模な移行

仕様駆動開発における自己改良エージェント

Week 3: LLMでの構築を始める前に『退屈な』MLを学ぶ理由

三エージェント・プロトコルは移植可能だ。規律は移植不可能だ。

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer