MemBoost:コストを意識したLLM推論のためのメモリ拡張フレームワーク
arXiv cs.CL / 2026/3/30
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- MemBoostは、ユーザーが反復またはほぼ重複したクエリを発行する実運用環境において、推論コストを削減することを目的とした、メモリ拡張型のLLMサービングフレームワークとして提案される。
- このフレームワークは、過去に生成された回答を再利用し、関連する裏付け情報を取得することで、軽量モデルが低コストで応答できるようにし、不確実または困難なケースではコストを考慮したルーティングによってより強力なモデルを温存する。
- 通常の検索強化生成(RAG)とは異なり、MemBoostは、回答の再利用、継続的なメモリの成長、段階的なエスカレーションを重視することで、インタラクティブな設定向けに最適化されている。
- 模擬ワークロードのもとで複数のモデルに対して行った実験では、高価な大規模モデル呼び出しおよび全体の推論コストを大幅に削減しつつ、回答品質を強力モデルのベースラインに近い水準に維持できることが示される。



