広告

MemBoost:コストを意識したLLM推論のためのメモリ拡張フレームワーク

arXiv cs.CL / 2026/3/30

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • MemBoostは、ユーザーが反復またはほぼ重複したクエリを発行する実運用環境において、推論コストを削減することを目的とした、メモリ拡張型のLLMサービングフレームワークとして提案される。
  • このフレームワークは、過去に生成された回答を再利用し、関連する裏付け情報を取得することで、軽量モデルが低コストで応答できるようにし、不確実または困難なケースではコストを考慮したルーティングによってより強力なモデルを温存する。
  • 通常の検索強化生成(RAG)とは異なり、MemBoostは、回答の再利用、継続的なメモリの成長、段階的なエスカレーションを重視することで、インタラクティブな設定向けに最適化されている。
  • 模擬ワークロードのもとで複数のモデルに対して行った実験では、高価な大規模モデル呼び出しおよび全体の推論コストを大幅に削減しつつ、回答品質を強力モデルのベースラインに近い水準に維持できることが示される。

Abstract

大規模言語モデル(LLM)は強力な性能を発揮しますが、現実のサービスにおいては、特にユーザーやセッションをまたいで繰り返し、またはほぼ重複するクエリが発生するワークロードのもとで、推論コストが高くなります。本研究では、MemBoostを提案します。MemBoostは、軽量なモデルが、過去に生成した回答を再利用し、安価な推論で関連する裏付け情報を取得できるようにする、メモリ強化型LLMサービング基盤です。さらに、難しい、または不確実なクエリに対しては、より強力なモデルへ選択的にエスカレーションします。単一の応答を主に根拠付けることを目的とする一般的な検索拡張生成(RAG)とは異なり、MemBoostは、回答再利用、継続的なメモリ成長、コストを意識したルーティングを支えることで、インタラクティブな環境向けに設計されています。シミュレートしたワークロード下で複数のモデルに対して行った実験では、MemBoostが高価な大規模モデルの呼び出しを大幅に削減し、推論全体のコストも低減しつつ、強力モデルのベースラインと同等レベルの高い回答品質を維持できることが示されました。

広告