生成しながらプルーンする：より高速でより良いRLVRのためのオンライン・ロールアウト・プルーニング

arXiv cs.CL / 2026/3/27

💬 オピニオンDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、強い計算コストを要するGRPOやDAPOのような手法を削減するために、生成中に軌跡（トラジェクトリ）を刈り込む（プルーンする）オンライン・ロールアウト・プルーニング手法「arrol」を提案する。対象は検証可能な報酬（Verifiable Rewards）を用いる強化学習（RLVR）。
arrolは、部分ロールアウトの成功確率を予測する軽量なオンザフライ「quality head」を学習し、それを用いて早期のプルーニング判断を行うことで、残されたサンプルの正しさのバランスを改善する。
推論エンジンの内部でプルーニングし、生き残ったロールアウトを再バッチ化して対数確率の計算と方策更新を行うことで、arrolは学習効率を高めつつ、学習シグナルを維持、または向上させる。
Qwen-3およびLLaMA-3.2モデル（1B〜8B）におけるGRPOとDAPOでの実験では、平均精度が+2.30〜+2.99改善し、最大1.7倍の学習速度向上が示される。さらに、学習したquality headを用いたテスト時スケーリングにより、最大+8.33の追加の改善も得られる。
著者らは、本手法の採用とさらなる評価を可能にするオープンソースのコードを公開している（https://github.com/Hsu1023/ARRoL）。