MEMENTO：LLMに自分自身のコンテキストを管理させるための教授法

arXiv cs.AI / 2026/4/14

💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

MEMENTOは、モデルの長い推論をブロックへと再構造化し、各ブロックを密な「memento（記憶）」要約へ圧縮したうえで、これらのmementosのみを使って推論することで、コンテキストと計算を削減する学習手法である。
本論文では、OpenThoughts-v3から派生した228K件のセグメント化・注釈付き推論トレースからなる公開データセット「OpenMementos」をリリースし、2段階のSFTレシピが複数のモデルファミリとサイズ（8B〜32B）にわたって有効であることを示す。
実験では、数学・科学・コーディングのベンチマークで高い精度が報告され、mementoのみのアテンション手法によりピークKVキャッシュを約2.5×削減できる。
著者らはこのアプローチをサポートするためにvLLMを拡張し、約1.75×のスループット向上を主張しており、さらに精度向上のためにRLも用いている。
ブロック情報が、mementoテキストと対応するKV状態の両方に保存される「二重の情報経路」が存在することを見出している。KVチャネルを取り除くと、AIME24の精度が15ポイント低下する。

AI Business

Publickey

日経XTECH

日経XTECH

日経XTECH