概要: 自律型LLMエージェントは、長い時間軸とインタラクティブな環境で動作することがますます増えており、成功には拡張された履歴にわたって蓄積された経験を再利用することが依存しています。しかし、既存のエージェント向けメモリシステムは本質的にテキスト文脈予算によって制約されています。生の軌跡を保存したり再訪したりすることはトークンコストが非常に高いため現実的ではありません。一方で、要約やテキストのみの検索は、トークン節約と引き換えに情報の損失や証拠が断片化されるという問題を招きます。この制約に対処するために、我々は光学的コンテキスト検索メモリ(OCR-Memory)を提案します。これは、エージェントの経験を高密度な表現として活用し、検索時のプロンプトオーバーヘッドを最小限に抑えつつ、任意に長い履歴を保持できるようにするメモリ枠組みです。具体的には、OCR-Memoryは、過去の軌跡を一意の視覚識別子で注釈付けした画像としてレンダリングします。OCR-Memoryは、
\emph{locate-and-transcribe}(特定して書き起こす)というパラダイムにより保存された経験を検索し、視覚的アンカーを通じて関連領域を選択して、その対応する逐語的なテキストを取得します。自由形式の生成を回避し、ハルシネーションを低減します。長期ホライゾンのエージェントベンチマークに対する実験では、厳しい文脈制限下でも一貫した改善が示されており、光学的符号化によって、忠実な証拠の回復を維持しながら有効なメモリ容量が増大することが明らかになりました。
OCR-Memory:長期エージェント・メモリのための光学的コンテキスト取得
arXiv cs.CL / 2026/4/30
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文は、長期のホライズンでインタラクティブに動作する自律LLMエージェントに向けた新しいメモリ枠組み「OCR-Memory」を提案しています。
- 文字ベースの従来のメモリがテキスト・コンテキスト予算によるトークンコストや情報損失に直面するのに対し、OCR-Memoryは過去の軌跡を画像として符号化し、取得時のプロンプト負担を最小化しつつ長い履歴を保持できるようにします。
- 取得は locate-and-transcribe(特定して書き起こす)方式で、視覚アンカーにより関連領域を選び、その部分に対応する“原文のまま”のテキストを取り出すことで、自由生成を避けて幻覚リスクを抑えます。
- 長期エージェントのベンチマーク実験では、厳しいコンテキスト制限下でも一貫した改善が示され、光学的符号化により有効メモリ容量が増えつつ証拠の忠実性が保たれることが示唆されます。



