大規模における効率的探索

arXiv cs.LG / 2026/3/19

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、新しい選択データが到着するたびに報酬モデルと言語モデルの両方を逐次更新することで、ヒューマンフィードバックに基づく強化学習(RLHF)のデータ効率を大幅に改善するオンライン学習アルゴリズムを提案する。
  • 主な技術には、各強化信号に小さな肯定的な後押しを追加すること、報酬の不確実性をモデル化するエピステミックニューラルネットワーク、そしてデータ収集を導く情報指向探索が含まれる。
  • Gemma LLMsを用いた実験では、このアルゴリズムは200kラベルで訓練されたオフラインRLHFの性能と同等を、20k未満のラベルで達成し、データ効率を10倍以上改善することを示した。
  • 著者らは、100万ラベルでの学習が10億ラベルで訓練されたオフラインRLHFと同等になる可能性を示唆しており、1000倍のスケーリング優位性を意味し、RLHFパイプラインにとって潜在的に画期的な成果をもたらす可能性がある。

要旨: 私たちは、人間のフィードバックからの強化学習(RLHF)のデータ効率を劇的に向上させるオンライン学習アルゴリズムを開発します。私たちのアルゴリズムは、選択データが受信されるにつれて報酬モデルと言語モデルを漸進的に更新します。報酬モデルは選択データに適合させられ、言語モデルは報酬モデルが提供する強化信号を用いた REINFORCE の変形によって更新されます。効率向上を可能にするいくつかの特徴: 各強化信号に小さな肯定的な後押しを加えること、報酬の不確実性をモデル化するエピステミック・ニューラルネットワーク、情報指向型探索。Gemma 大規模言語モデル(LLMs)を用いると、私たちのアルゴリズムは、200K ラベルで訓練されたオフライン RLHF の性能に匹敵しつつ、20K 未満のラベルしか使用しません。これによりデータ効率は10倍以上向上します。結果から外挿すると、1M ラベルで訓練した私たちのアルゴリズムは、1B ラベルで訓練されたオフライン RLHF に匹敵すると予想されます。これは1000倍の改善を意味します。私たちの知る限り、これほど大きな改善が可能であることを示す初めての結果です。