1 行のコードで検索エージェントを改善する

arXiv cs.LG / 2026/3/12

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

SAPO は Search Agent Policy Optimization の略で、TARL ベースの検索エージェントの訓練を安定化させるため、条件付きトークンレベル KL 制約を導入します。
GRPO における重要度サンプリング分布ドリフト（ISDD）に対処します。ISDD は以前、重要度サンプリング比の急激な低下が勾配更新を無効化し、訓練の崩壊を招いていました。
SAPO は標準 GRPO に対してわずか1行のコード修正を要するだけで、即時デプロイを可能にします。
七つの QA ベンチマークにわたる実験結果は、Search-R1 に対して絶対値で +10.6 ポイントの改善を達成し、モデル規模（1.5B および 14B）およびファミリー（Qwen、LLaMA）を問わず一貫した改善を示します。
このアプローチは、分布のドリフトを防ぎつつ、正のトークンで低確率のケースに限定して KL 発散をペナルティとして課することで、勾配の流れを保持します。

本文: arXiv:2603.10069v1 発表タイプ: new Abstract: ツールベースのエージェント指向強化学習（TARL）は、外部ツールと対話する検索エージェントを訓練し、複数ターンの情報探索プロセスを自律的に行わせる有望なパラダイムとして浮上してきました。しかし、致命的なモデル崩壊につながる重大な訓練の不安定性を特定しました。それは Importance Sampling Distribution Drift (ISDD) です。GRPO という広く採用されている TARL アルゴリズムでは、ISDD は重要度サンプリング比の急激な低下として現れ、それが勾配更新を無効化し、不可逆的な訓練失敗を引き起こします。これに対処するため、\textbf{S}earch \textbf{A}gent \textbf{P}olicy \textbf{O}ptimization (\textbf{SAPO}) を提案します。SAPO は、条件付きトークンレベル KL 制約を介して訓練を安定化します。分布の乖離を無視するハードクリッピングとは異なり、SAPO は現在のポリシーと旧ポリシーの KL ダイバージェンスを選択的にペナルティします。重要なのは、このペナルティが低確率の正のトークンに対してのみ適用される点で、ポリシーが過度に移動した場合の分布ドリフトを防ぎつつ、勾配の流れを維持します。驚くべきことに、SAPO は標準 GRPO にわずか1行のコード修正を施すだけで、即時のデプロイ性を確保します。七つの QA ベンチマークを横断する広範な実験により、SAPO は Search-R1 に対して \textbf{+10.6\% の絶対改善}（\(+31.5\%\) の相対改善）を達成し、モデル規模（1.5B、14B）およびファミリー（Qwen、LLaMA）を問わず一貫した利得を生み出します。

[R] アイデンティティ・アンカーと権限階層の組み合わせが abliterated LLMs で 100% の拒否を実現 — システムプロンプトのみ、ファインチューニングなし

Reddit r/MachineLearning

私がリードを見つけ、個別化されたコールドメールを作成するAI SDRエージェントを構築した方法

Dev.to

完全ガイド: AIでお金を稼ぐ方法

Dev.to

AIでポートフォリオを分析して53/100を取得 — どうやって85点以上に改善したか

Dev.to

脱メチル化

Dev.to

1 行のコードで検索エージェントを改善する

要点

関連記事

[R] アイデンティティ・アンカーと権限階層の組み合わせが abliterated LLMs で 100% の拒否を実現 — システムプロンプトのみ、ファインチューニングなし

私がリードを見つけ、個別化されたコールドメールを作成するAI SDRエージェントを構築した方法

完全ガイド: AIでお金を稼ぐ方法

AIでポートフォリオを分析して53/100を取得 — どうやって85点以上に改善したか

脱メチル化

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer