MEMENTO:LLMに自分自身のコンテキストを管理させるための教授法
arXiv cs.AI / 2026/4/14
💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- MEMENTOは、モデルの長い推論をブロックへと再構造化し、各ブロックを密な「memento(記憶)」要約へ圧縮したうえで、これらのmementosのみを使って推論することで、コンテキストと計算を削減する学習手法である。
- 本論文では、OpenThoughts-v3から派生した228K件のセグメント化・注釈付き推論トレースからなる公開データセット「OpenMementos」をリリースし、2段階のSFTレシピが複数のモデルファミリとサイズ(8B〜32B)にわたって有効であることを示す。
- 実験では、数学・科学・コーディングのベンチマークで高い精度が報告され、mementoのみのアテンション手法によりピークKVキャッシュを約2.5×削減できる。
- 著者らはこのアプローチをサポートするためにvLLMを拡張し、約1.75×のスループット向上を主張しており、さらに精度向上のためにRLも用いている。
- ブロック情報が、mementoテキストと対応するKV状態の両方に保存される「二重の情報経路」が存在することを見出している。KVチャネルを取り除くと、AIME24の精度が15ポイント低下する。




