要旨: 大規模言語モデル(LLM)は、その強力な内部能力と知識によって、AI研究を大きく変革しました。しかし、既存のLLMは、現実世界と相互作用する際に、大規模な外部知識を効果的に取り込むことが依然としてできていません。 この問題を軽減するために検索拡張型LLMが提案されていますが、それらは根本的にLLMの文脈長(コンテキスト長)という制約を受けています。というのも、外部知識ベースがしばしば数百万のデータチャンクで構成される中で、取得できるのは上位K件の生データチャンクに限られるからです。 そこで本研究では、Thought-Retriever(思考リトリーバー)という、モデルに依存しない新しいアルゴリズムを提案します。これは、文脈長や取得するデータチャンク数に制約されることなく、任意に長い外部データを条件としてLLMの出力を生成できるようにするものです。 本研究の主要な洞察は、過去のユーザー質問を解く際にLLMが生成する中間応答(思考)を、LLMに十分に活用させることです。意味がない、あるいは冗長な思考をフィルタリングし、思考メモリに整理したうえで、新しい質問に答える際に関連する思考を取得します。 これにより、LLMベースのエージェントに、継続的な相互作用によって能力が向上していく自己進化型の長期メモリが実装されます。
アルゴリズム面での革新に加えて、さらに、AcademicEvalという新しいベンチマークを入念に準備しました。これは、現実世界の学術論文に基づく質問に答えるために、LLMが超長文脈を忠実に活用することを要求します。 AcademicEvalおよび他の2つの公開データセットに対する大規模な実験により、Thought-Retrieverが最先端のベースラインを顕著に上回り、さまざまなタスクにおいてF1スコアで平均少なくとも7.6%の向上、勝率で16%の向上を達成することを検証しました。 より重要なのは、次の2つの刺激的な発見をさらに示せたことです:(1) Thought-Retrieverは、より多くのユーザー質問を解いた後に、実際にLLM自身を自己進化させるのに役立つこと;(2) Thought-Retrieverは、より深い思考を活用して、より抽象的なユーザー質問に答えることを学習すること。
Thought-Retriever:生データをただ取得するのではなく、メモリ拡張型のエージェントシステムのために「思考」を取得せよ
arXiv cs.CL / 2026/4/15
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- Thought-Retrieverは、LLMエージェントが非常に大規模な外部知識を、通常のコンテキスト長や上位K件(top-K)取得といった制限を超えて活用する方法を改善するための、新しいモデル非依存型アルゴリズムである。
- 生のデータ断片だけを取得するのではなく、過去のやり取りからLLMの中間的な「思考」を保存し再利用し、無関係な内容をふるい分けながら、有用なアイテムを長期の思考メモリに整理する。
- このアプローチにより、モデルの直近のコンテキスト・ウィンドウに頼るのではなく、関連する思考を取得することで、任意に長い外部データに条件付け(conditioning)できる。
- 著者らは、実在する学術論文に基づく問いに答えるために、超長コンテキストを忠実に活用することに焦点を当てたベンチマーク AcademicEval を導入する。
- 実験では、最先端のベースラインに対して平均F1で少なくとも7.6%の改善、勝率で16%の増加が報告されており、より多くのユーザークエリにわたって自己進化し、抽象的な質問に対してより深い推論をうまく活用できるという証拠が示されている。




