要約: 近接ポリシー最適化(PPO)は、クリップされたSGDの複数エポックを用いてトラスト領域の更新を近似します。各エポックは自然勾配の方向からさらに逸脱する可能性があり、経路依存的ノイズを生み出します。 この逸脱を理解するために、フィッシャー情報幾何を用いてポリシー更新を信号(自然勾配投影)と廃棄物(Fisher直交残差で、一次近似の surrogate 改善を先行して得られないもの)に分解することができます。経験的には、信号は飽和しますが、追加のエポックとともに廃棄物が増え、最適化の深さのジレンマを生み出します。私たちはPolicy OptimizationのためのConsensus Aggregation(CAPO)を提案します。これは深さから幅へ計算資源を再配分するもので、K個のPPOレプリカを同じバッチ上で最適化し、ミニバッチのシャッフル順序のみが異なり、それをコンセンサスへ集約します。私たちは、2つの空間での集約を検討します:ユークリッドパラメータ空間と、対数的意見プールを介したポリシー分布の自然パラメータ空間。自然パラメータ空間では、コンセンサスは平均エキスパートよりもKLペナルティを課した代理指標を高く達成し、信頼領域の適合性をより厳密に満たします;パラメータの平均化はこれらの保証をおおよそ継承します。連続制御タスクでは、CAPOは固定サンプル予算の下でPPOや計算量を合わせた深いベースラインより最大で8.6倍上回ります。 CAPOは、追加の環境相互作用を増やすことなく、より深くするよりも幅を広げて最適化することにより、ポリシー最適化を改善できることを示しています。
深さを増やすのではなく、幅を広げる最適化: ポリシー最適化のためのコンセンサス集約
arXiv cs.AI / 2026/3/16
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- CAPO (Consensus Aggregation for Policy Optimization) は、同じバッチ上で異なるミニバッチシャッフルを用いてK個のレプリカを実行し、それらを単純な平均化ではなくコンセンサスへ集約することで、PPO の深さを増やすことなく新しいアプローチを提案します。
- 本研究は、ユークリッドパラメータ空間とポリシー分布の自然パラメータ空間の両方での更新を分析し、コンセンサスがKLペナルティ付きの代理関数および信頼域の遵守において単純な平均化を上回ることを示しています。
- 実証的には、CAPOはPPOと比較して最大8.6×の改善を達成し、固定サンプル予算の下で計算資源を揃えた深いベースラインを上回る性能を示します。対象は連続制御タスクです。
- 著者らは、深さは資源の浪費を招き、信号が飽和していくと主張し、最適化を幅広く行うことで追加の環境相互作用なしに性能を改善できると述べています。