一致精度の比較、異なるジオメトリ：LLMのポストトレーニングにおけるEvolution Strategies vs GRPO

arXiv cs.LG / 2026/4/3

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、単一タスクおよび逐次の継続学習（continual-learning）設定の両方において、4つのタスクにわたるLLMのポストトレーニングで、Evolution Strategies（ES）とGroup Relative Policy Optimization（GRPO）を比較する。
ESは単一タスクの精度でGRPOに匹敵、あるいは上回り、反復予算を制御すれば逐次設定でも競争力を維持するが、基盤となるパラメータ空間の更新は大きく異なる。
ESははるかに大きな更新ステップを行い、タスク外へのKLドリフトが広範囲に生じるのに対し、GRPOはより小さく、局所的な更新を生成する。
著者らは、更新方向がほぼ直交しているにもかかわらず、ESとGRPOは損失バリアのない線形に連結された解に最終的に到達することを見出し、このジオメトリと進捗（progress）のトレードオフを説明するための解析的なES理論を提示する。
忘却や知識保持への含意を強調し、結果の再現および拡張のための付随コードを公開する。