アブストラクト: 大規模言語モデル(LLM)ベースのWebエージェントは知識集約的タスクにおいて優れた性能を発揮しますが、広範な探索の必要性と、限られたコンテキストウィンドウという制約との間に、根本的な対立があります。現在の解決策は一般に、内部メモリトークンなどのアーキテクチャ修正に依存しており、既存のエージェントとの互換性を損ない、費用のかかるエンドツーエンドの再学習を要します。これらの制約を克服するために、ReSumという軽量でプラグアンドプレイ可能なパラダイムを導入します。このパラダイムは、外部ツールを定期的に呼び出して、相互作用履歴をコンパクトな要約へと圧縮することで、無制限の探索を可能にします。このパラダイムは学習なしで機能しますが、標準的なエージェントは、こうした圧縮されたコンテキスト上で推論するようには本質的に整合していません。このギャップを埋めるために、我々はReSum-GRPOを提案します。これは、Group Relative Policy Optimization(GRPO)をアドバンテージ・ブロードキャスティングによって適応し、分割された軌道にわたって最終的な報酬を伝播させることで、長いホライズンにおけるクレジット割り当てを可能にします。大規模な実験の結果、ReSumは学習なしの設定でReActに対して4.5%の改善を達成し、ReSum-GRPOはさらに8.2%の向上をもたらすことが示されました。特筆すべきことに、わずか1Kの学習サンプルのみで、ReSum強化の30Bエージェントが主要なオープンソースモデルと競争力のある性能を示し、ReSumの有効性が裏付けられます。
ReSum:コンテキスト要約によって長期ホライゾンの検索インテリジェンスを解き放つ
arXiv cs.CL / 2026/3/27
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- ReSumは、再学習なしで、相互作用履歴をコンパクトな外部コンテキストに定期的に要約することで、LLMウェブエージェントに無制限の長期探索を可能にするための、プラグアンドプレイ型のパラダイムとして提案される。
- この研究では、標準的なエージェントは圧縮要約を自然に扱って推論するようには整列していないと主張し、長期ホライゾンにおけるクレジット割当を改善するために、GRPOの優位性ブロードキャスティング(advantage broadcasting)適応であるReSum-GRPOを導入する。
- 学習なしの設定での実験では、ReSumがReActに対して4.5%性能を向上させ、さらにReSum-GRPOは追加で8.2%の向上をもたらすことが示される。
- たった1Kの学習サンプルのみで、ReSumを強化した30Bモデルが、主要なオープンソースモデルに対して競争力のある性能に到達したと報告されており、サンプル効率の高さが示唆される。
- 全体として、このアプローチは既存のエージェント構成との互換性を維持しつつ、現在のウェブエージェント戦略を制限しているコンテキストウィンドウ競合の問題に対処することを目指している。