移動するエッジで学習する:効率的な大規模推論モデルの強化学習トレーニングのためのオンライン検証付きプロンプト選択

arXiv cs.LG / 2026/3/27

💬 オピニオン

要点

  • 本論文は、大規模推論LLMに対する強化学習の事後学習に伴う高い計算コストを扱う。特に、GRPOのように多くのプロンプト・ロールアウトが勾配信号にほとんど寄与しない手法に着目する。

要旨: 強化学習(RL)は、推論タスクにおける事後学習(post-training)の大規模言語モデル(LLM)にとって不可欠になっている。ロールアウトをスケールすることで学習が安定し、性能が向上する一方で、計算オーバーヘッドは重大な課題である。GRPOのようなアルゴリズムでは、プロンプトごとに複数のロールアウトを行うためコストが過大になりがちだ。というのも、大部分のプロンプトは得る勾配がほとんどないため有用性が低いからである。この問題に対処するため、ロールアウト段階の前に高い有用性を持つプロンプトを選択する方法を検討する。実験的な分析により、サンプルの有用性は一様ではなく、かつ時間とともに変化することが分かる。最も強い学習シグナルは「learning edge(学習の境界)」、すなわち中間的な難易度と高い不確実性の交点に集中し、学習が進むにつれてその位置は移動する。これに動機づけられ、データ効率の高いRLのための二段階フレームワークであるHIVE(History-Informed and online-VErified prompt selection)を提案する。HIVEは、粗い選択に過去の報酬軌跡を利用し、さらにプロンプトのエントロピーをリアルタイムの代理指標として用いて、陳腐化した有用性を持つインスタンスを刈り込む。複数の数学推論ベンチマークとモデルにわたってHIVEを評価することで、性能を損なうことなく、HIVEが顕著なロールアウト効率をもたらすことを示す。