FIPO: Future-KL Influenced Policy Optimizationによる深い推論の喚起

arXiv cs.LG / 2026/3/23

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • Future-KL Influenced Policy Optimization (FIPO) を提案する。これは、方策更新に割引未来KL発散を用いることで、大規模言語モデルにおける推論のボトルネックを緩和することを目的とした強化学習アルゴリズムである。
  • 粗いアウトカムベースの報酬を、後続の挙動軌跡に対する影響度でトークンごとに重み付けされた密なトークンレベルのアドバンテージへと置き換え、より精緻なクレジット割り当てを可能にする。
  • Qwen2.5-32B モデルで実証的な成果を示し、平均的な思考過程の長さを約4,000トークンから10,000トークン超へ拡張し、AIME 2024のPass@1を50.0%から58.0%へ向上(約56%の収束)、複数のベースラインを上回る。
  • verl フレームワーク上に構築されたトレーニングシステムをオープンソース化し、実践的な再現性とORMベースのアルゴリズムをより良い推論能力へと進化させる道筋を強調する。

要約:私たちは、Future-KL Influenced Policy Optimization(FIPO)を提示します。これは、大規模言語モデルにおける推論のボトルネックを克服するよう設計された強化学習アルゴリズムです。
GRPOスタイルのトレーニングは効果的にスケールしますが、通常はアウトカムベースの報酬(ORM)に依存し、軌跡内の各トークンに対してグローバルなアドバンテージを均等に分配します。
この粗粒度のクレジット割り当ては、重要な論理的転換点と些細なトークンを区別できないため、パフォーマンスの天井を課していると主張します。
FIPOは、方策更新に割引付き将来KL発散を組み込むことで、後続の軌道挙動への影響に基づいてトークンを再重み付けする密なアドバンテージ定式化を作り出します。
経験的には、FIPOは標準的なベースラインで見られる長さの停滞を打破できるよう、モデルを可能にします。
Qwen2.5-32Bで評価すると、FIPOは平均的な思考過程の長さを約4,000トークンから10,000トークン超へ延長し、AIME 2024のPass@1精度を50.0%からピークの58.0%へ向上させます(約56.0%に収束します)。
これはDeepSeek-R1-Zero-Math-32B(約47.0%)およびo1-mini(約56.0%)の両方を上回ります。
われわれの結果は、密なアドバンテージ定式化を確立することが、ORMベースのアルゴリズムを進化させ、ベースモデルの推論能力を最大限に引き出すための重要な道であることを示唆しています。
私たちは、verlフレームワーク上に構築したトレーニングシステムをオープンソース化します。