1 行のコードで検索エージェントを改善する
arXiv cs.LG / 2026/3/12
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- SAPO は Search Agent Policy Optimization の略で、TARL ベースの検索エージェントの訓練を安定化させるため、条件付きトークンレベル KL 制約を導入します。
- GRPO における重要度サンプリング分布ドリフト(ISDD)に対処します。ISDD は以前、重要度サンプリング比の急激な低下が勾配更新を無効化し、訓練の崩壊を招いていました。
- SAPO は標準 GRPO に対してわずか1行のコード修正を要するだけで、即時デプロイを可能にします。
- 七つの QA ベンチマークにわたる実験結果は、Search-R1 に対して絶対値で +10.6 ポイントの改善を達成し、モデル規模(1.5B および 14B)およびファミリー(Qwen、LLaMA)を問わず一貫した改善を示します。
- このアプローチは、分布のドリフトを防ぎつつ、正のトークンで低確率のケースに限定して KL 発散をペナルティとして課することで、勾配の流れを保持します。
本文: arXiv:2603.10069v1 発表タイプ: new
Abstract: ツールベースのエージェント指向強化学習(TARL)は、外部ツールと対話する検索エージェントを訓練し、複数ターンの情報探索プロセスを自律的に行わせる有望なパラダイムとして浮上してきました。しかし、致命的なモデル崩壊につながる重大な訓練の不安定性を特定しました。それは Importance Sampling Distribution Drift (ISDD) です。GRPO という広く採用されている TARL アルゴリズムでは、ISDD は重要度サンプリング比の急激な低下として現れ、それが勾配更新を無効化し、不可逆的な訓練失敗を引き起こします。これに対処するため、\textbf{S}earch \textbf{A}gent \textbf{P}olicy \textbf{O}ptimization (\textbf{SAPO}) を提案します。SAPO は、条件付きトークンレベル KL 制約を介して訓練を安定化します。分布の乖離を無視するハードクリッピングとは異なり、SAPO は現在のポリシーと旧ポリシーの KL ダイバージェンスを選択的にペナルティします。重要なのは、このペナルティが低確率の正のトークンに対してのみ適用される点で、ポリシーが過度に移動した場合の分布ドリフトを防ぎつつ、勾配の流れを維持します。驚くべきことに、SAPO は標準 GRPO にわずか1行のコード修正を施すだけで、即時のデプロイ性を確保します。七つの QA ベンチマークを横断する広範な実験により、SAPO は Search-R1 に対して \textbf{+10.6\% の絶対改善}(\(+31.5\%\) の相対改善)を達成し、モデル規模(1.5B、14B)およびファミリー(Qwen、LLaMA)を問わず一貫した利得を生み出します。