長期ホライズンLLM会話のためのキーワード・ブックマーク付き協調的ページング

arXiv cs.CL / 2026/4/15

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、LLMチャットにおける長期ホライズン問題に対して「協調的ページング（cooperative paging）」を提案する。これは、追い出された文脈セグメントをコンパクトなキーワード・ブックマークで置き換え、必要に応じてモデルが recall() ツールを呼び出して完全な内容を取得できるようにする。
LoCoMoベンチマーク（実会話10件、マルチセッション、300+ターン）において、協調的ページングは6種類の検証手法の中で最も高い回答品質を示し、独立したLLMジャッジによって結果が検証されている（p=0.017）。
アブレーション研究では、固定サイズで粗いページングが、特定のコンテンツに着目した境界戦略よりも大幅に有効であることが分かる。また、追い出しポリシーの有効性はデータ領域に依存し、合成データではFIFO、LoCoMoではLFUが適している。
2つのブックマーク生成戦略は、ヒューリスティック基準よりエンドツーエンドの性能を改善する。しかし残る主要な制約はブックマークの識別性である。すなわち、recallは頻繁にトリガーされる一方で、ブックマークに識別性が欠ける場合、正しいページが選ばれるのは約57%にとどまる。
本研究は、ブックマークの特異性が極めて重要であり、追い出された適切なセグメントを選択する精度における約25パーセンテージポイントの差を生み出していると結論づける。

要旨: LLMの会話がコンテキストウィンドウを超えて大きくなると、古い内容は追い出される必要があります。しかし、必要になったときモデルはそれをどのように復元するのでしょうか？本研究では、協調型ページングを提案します。追い出されたセグメントは、最小限のキーワード・ブックマーク（[pN:keywords]、各約8〜24トークン）で置換され、モデルには、必要に応じて全文を取得するための recall() ツールが与えられます。LoCoMoベンチマーク（実在のマルチセッション会話10本、300回超のターン）では、協調型ページングは6つの手法の中で最も高い回答品質を達成し、4つのモデル（GPT-4o-mini、DeepSeek-v3.2、Claude Haiku、GLM-5）において、切り捨て、BM25、語の重なりによる検索、検索ツールのベースライン、完全なコンテキストを上回ります。これは4名の独立したLLM審判によって確認されました（ $p=0.017$ 、ペア結束ブートストラップ）。続いて、境界戦略と追い出しポリシーに関する5×4のアブレーションでページング設計空間を調査します（3,176件の合成プローブ、1,600件のLoCoMoプローブ）。主要な発見は次のとおりです。（1）粗い固定サイズのページ（fixed_20）は96.7%に達する一方で、内容に応じた topic_shift は56.7%まで崩壊します。（2）追い出しポリシーの選択はデータ依存です（合成データではFIFOが最良、LoCoMoではLFUが最良）。（3）ブックマーク生成の2つの戦略は、ヒューリスティック・ベースラインより改善します（+4.4および+8.7のE2Eポイント）。（4）残るボトルネックはブックマークの識別性です。モデルは recall() を96%の確率で発火しますが、ブックマークが十分に識別可能でない場合に正しいページを選べるのは57%にとどまります。キーワードの特異性だけで、精度に25パーセンテージポイントの差が説明できることが分かりました。