RHyVE:能力を考慮した検証と学習フェーズを考慮したLLM生成報酬仮説のデプロイ

arXiv cs.AI / 2026/5/1

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、強化学習におけるLLM生成報酬が、学習中の「いつ検証していつデプロイできるか」を踏まえない限り、信頼できる最適化目的として扱えないと主張する。
  • 提案手法RHyVEは、生成報酬を仮説として扱い、現在の方策の能力(competence)に応じた短ホライズンの分岐(fork)検証を用いる「能力を考慮した検証」と「学習フェーズを考慮したデプロイ」のプロトコルである。
  • 実験では、能力が低い段階では報酬ランキングが不安定だが、タスク依存の閾値を超えると情報を持つようになることが示される。
  • わずかな報酬が得られるマニピュレーション課題では、ロックされたプロトコルの下でフェーズを考慮したデプロイにより、ピーク性能と保持性能が改善された。
  • 追加実験により、普遍的に最適なウォームアップスケジュールは存在せず、RHyVEは万能なスケジューラというより「検証に基づくデプロイ」だと整理できることが示される。