要旨: 本研究では、事前学習済みの大規模言語モデル(LLM)上に構築されたエージェントが、パラメータ更新なしで、ラベル付きの例から目標となる分類関数をどのように学習し得るかを調査する。微調整のような従来手法はしばしば高コストで、不確定であり、かつブラックボックス的であるのに対し、本研究では、ラベル付きデータに基づくLLM生成の批評(critique)を活用する、メモリ拡張型の枠組みを提案する。提案枠組みでは、エピソード記憶を用いてインスタンス単位の批評を保存する。ここでの批評は、過去の具体的な経験を捉えるものである。また、意味記憶を用いてそれらを蒸留し、再利用可能なタスク単位の指針へと変換する。多様なタスク群とモデル群にわたって、我々の最も性能の高い自己批評戦略(両種類のメモリを利用)は、ゼロショット基準に対して平均8.1パーセントポイントの改善をもたらし、さらにラベルのみを用いるRAGベースラインに対しては4.6ppの改善をもたらす。しかし、改善の度合いはモデルや領域によって大きく変動する。この変動を説明するために、文脈として与えられる外部推論に対してモデルがどれほど受容的であるかを捉える、新しい指標である示唆性(suggestibility)を導入する。示唆性を用いることで、メモリ拡張がいつ、なぜ成功するのか、あるいはどこで失敗するのかを明らかにする。精度向上に加えて、事前計算された批評は、推論モデルにおける推論時の計算量を大幅に削減し、モデルが本来独立に実行していた推論の代わりとして機能することで、全データセットにわたって思考トークンを平均31.95%削減することが分かった。これらの結果は、メモリ駆動の省察(reflective)学習が、LLMの適応性を高めるための、軽量で解釈可能かつ効率的な戦略となり得る条件を示している。
意味記憶とエピソード記憶による教師あり学習:エージェント適応のための反省的アプローチ
arXiv cs.CL / 2026/5/4
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、モデルのパラメータ更新なしで、ラベル付き例から分類関数を学習するためのLLMベースのエージェント向けメモリ拡張フレームワークを提案している。
- 構築方法として、セマンティックメモリでラベルに根ざしたLLM生成の批評を再利用可能なタスク指針へ蒸留し、エピソードメモリで過去の経験に紐づくインスタンス単位の批評を保存する。
- 複数のタスクとモデルに対する実験では、最良の自己批評戦略がゼロショット基準を平均8.1ポイント上回り、ラベルのみを使うRAG基準より平均4.6ポイント改善した。
- モデルやドメインごとに改善幅が大きく変動する理由を説明するために、「suggestibility(示唆されやすさ)」という新しい指標を導入し、メモリ拡張が機能する/しない条件を明らかにしている。
- さらに、批評を事前計算することで推論時の推論コストが下がり、モデル自身に推論させる場合と比べて「thinking」トークンを平均31.95%削減できることを示している。



