大規模推論モデルのアクティブRLファインチューニングのためのダイナミクス予測サンプリング

arXiv cs.LG / 2026/3/12

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • DPSはオンラインのダイナミクス予測サンプリングを提案し、費用のかかるロールアウトの前に学習ダイナミクスを予測して有益なプロンプトを選択します。
  • 各プロンプトの解法進捗を隠れマルコフモデルを用いたダイナミカルシステムとしてモデル化し、過去の報酬をオンラインベイズ推論で用いて予測的事前分布を生成します。
  • このアプローチは冗長なLLMロールアウトを大幅に削減し、トレーニングを加速し、数学、計画、視覚幾何学などのタスクで推論性能を向上させることを目指します。
  • 実証結果はDPSがロールアウトコストを低減し、優れた推論能力を達成することを示しており、RLファインチューニングパイプラインの潜在的なワークフロー改善を示唆します。
強化学習(RL)ファインチューニングは、大規模言語モデル(LLMs)の推論能力を高める重要な技術となっている。しかし、その効果はトレーニングデータの選択に大きく依存する。最近の進展は、オンラインのプロンプト選択法の重要性を強調しており、通常は現在のポリシーの下で部分的に解かれた、あるいは適度に難しい例に対してトレーニングを集中させることで、より効果的なモデル更新を生み出す。トレーニングステップの点でRLファインチューニングを大幅に加速する一方で、情報量の多いサンプルを特定するために大規模な候補バッチにわたる広範なLLMロールアウトを必要とするため、計算コストがかなり増大し、ファインチューニング自体のコストを上回る場合もある。この課題に対処するため、本研究はDynamics-Predictive Sampling(DPS)を提案する。DPSは、費用のかかるロールアウトを行う前に学習ダイナミクスを推定して有益なプロンプトをオンラインで予測・選択する。具体的には、RLファインチューニング中の各プロンプトの解法進捗をダイナミカルシステムとしてモデル化し、解の進行度を状態として表し、遷移は隠れマルコフモデルで特徴づける新しい視点を導入する。過去のロールアウト報酬信号を用いてオンラインベイズ推定を行い、進化する状態分布を推定し、その推定結果がロールアウトを大量に必要とするフィルタリングを伴わずに効率的なプロンプト選択の予測事前分布を提供する。数学、計画、視覚幾何学を含む多様な推論タスクにわたる実証結果は、DPSが冗長なロールアウトを大幅に削減し、トレーニングプロセスを加速し、優れた推論性能を達成することを示している。