Poly-EPO:探索的推論モデルのトレーニング

arXiv cs.AI / 2026/4/21

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、言語モデルを報酬関数に整合させつつ、楽観的な探索行動を明示的に促すポストトレーニングの枠組みを提案します。
  • 目標関数が任意の場合でもLMを最適化できるよう、セット強化学習(set RL)向けの一般的な手順を示し、アドバンテージ計算をセット設定に適応させます。
  • 提案手法 Polychromic Exploratory Policy Optimization(Poly-EPO)は、探索と活用のバランスを明示的に相乗させる目的関数でこの枠組みを具体化します。
  • 複数の推論ベンチマークで、一般化性能の向上、pass@kカバレッジの増加、生成の多様性の維持、そしてテスト時計算量(test-time compute)へのスケール可能性が示されています。

要旨: 探索は、経験から学ぶことの基盤です。探索によって、エージェントは複雑な問題の解法を見つけられるようになり、未知の状況へ一般化でき、さらに推論時コンピュートによって性能をスケールできます。本論文では、楽観的な探索を明示的に促し、探索と活用(exploitation)の相乗効果を後押しする、事後学習(post-training)型の言語モデル(LM)のための枠組みを提案します。その中心的な考え方は、報酬関数の下で集合として(colllectively)正確であり、かつ推論戦略において探索的である応答の集合を生成するようにLMを学習することです。まず、任意の目的関数のもとで集合強化学習(set RL)を用いてLMを最適化するための一般的なレシピを構築し、アドバンテージ計算への修正によって、標準的なRLアルゴリズムをこの設定に適応できることを示します。つづいて、この枠組みを、探索と活用を明示的に相乗させる目的によって具体化した、ポリクロミック探索的方策最適化(Polychromic Exploratory Policy Optimization; Poly-EPO)を提案します。さまざまな推論ベンチマークにおいて、Poly-EPOは一般化を改善することを示します。これは、pass@kのカバレッジが高いこと、生成における多様性をより保っていること、そして推論時コンピュートに対して効果的にスケールすることによって裏付けられます。