ReSum：コンテキスト要約によって長期ホライゾンの検索インテリジェンスを解き放つ

arXiv cs.CL / 2026/3/27

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

ReSumは、再学習なしで、相互作用履歴をコンパクトな外部コンテキストに定期的に要約することで、LLMウェブエージェントに無制限の長期探索を可能にするための、プラグアンドプレイ型のパラダイムとして提案される。
この研究では、標準的なエージェントは圧縮要約を自然に扱って推論するようには整列していないと主張し、長期ホライゾンにおけるクレジット割当を改善するために、GRPOの優位性ブロードキャスティング（advantage broadcasting）適応であるReSum-GRPOを導入する。
学習なしの設定での実験では、ReSumがReActに対して4.5%性能を向上させ、さらにReSum-GRPOは追加で8.2%の向上をもたらすことが示される。
たった1Kの学習サンプルのみで、ReSumを強化した30Bモデルが、主要なオープンソースモデルに対して競争力のある性能に到達したと報告されており、サンプル効率の高さが示唆される。
全体として、このアプローチは既存のエージェント構成との互換性を維持しつつ、現在のウェブエージェント戦略を制限しているコンテキストウィンドウ競合の問題に対処することを目指している。

アブストラクト: 大規模言語モデル（LLM）ベースのWebエージェントは知識集約的タスクにおいて優れた性能を発揮しますが、広範な探索の必要性と、限られたコンテキストウィンドウという制約との間に、根本的な対立があります。現在の解決策は一般に、内部メモリトークンなどのアーキテクチャ修正に依存しており、既存のエージェントとの互換性を損ない、費用のかかるエンドツーエンドの再学習を要します。これらの制約を克服するために、ReSumという軽量でプラグアンドプレイ可能なパラダイムを導入します。このパラダイムは、外部ツールを定期的に呼び出して、相互作用履歴をコンパクトな要約へと圧縮することで、無制限の探索を可能にします。このパラダイムは学習なしで機能しますが、標準的なエージェントは、こうした圧縮されたコンテキスト上で推論するようには本質的に整合していません。このギャップを埋めるために、我々はReSum-GRPOを提案します。これは、Group Relative Policy Optimization（GRPO）をアドバンテージ・ブロードキャスティングによって適応し、分割された軌道にわたって最終的な報酬を伝播させることで、長いホライズンにおけるクレジット割り当てを可能にします。大規模な実験の結果、ReSumは学習なしの設定でReActに対して4.5%の改善を達成し、ReSum-GRPOはさらに8.2%の向上をもたらすことが示されました。特筆すべきことに、わずか1Kの学習サンプルのみで、ReSum強化の30Bエージェントが主要なオープンソースモデルと競争力のある性能を示し、ReSumの有効性が裏付けられます。

AIが考える「最強のプログラミング言語」、実際につくって動かしてみた

日経XTECH

GDPRとAIトレーニングデータ：個人データで学習する前に知っておくべきこと

Dev.to

体現型エージェントのフィードバックループによる、郷土（継承）言語活性化プログラムのためのエッジ・ツー・クラウド・スウォーム協調

Dev.to

大手テック企業はAI投資と統合を加速している一方で、規制当局と企業は安全性と責任ある導入に注力している

Dev.to

AIクローラ管理：AIボット向けrobots.txtの決定版ガイド

Dev.to

ReSum：コンテキスト要約によって長期ホライゾンの検索インテリジェンスを解き放つ

要点

関連記事

AIが考える「最強のプログラミング言語」、実際につくって動かしてみた

GDPRとAIトレーニングデータ：個人データで学習する前に知っておくべきこと

体現型エージェントのフィードバックループによる、郷土（継承）言語活性化プログラムのためのエッジ・ツー・クラウド・スウォーム協調

大手テック企業はAI投資と統合を加速している一方で、規制当局と企業は安全性と責任ある導入に注力している

AIクローラ管理：AIボット向けrobots.txtの決定版ガイド

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer