MTServe：階層型キャッシュによる生成型レコメンドモデルの効率的なサービング

arXiv cs.LG / 2026/4/28

📰 ニュースDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、長いユーザー履歴の再エンコードを抑えることで、生成型レコメンドの高い推論コストを削減するためのクロスリクエストKVキャッシュ再利用を目的としたMTServeを提案している。
ユーザーごとの状態が巨大なために生じる「ストレージ爆発」問題に対し、GPUメモリを仮想化し、ホストRAMをスケーラブルなバックアップ層として活用することで対処する。
ティア間のI/Oギャップを埋めるために、ハイブリッドなストレージ構成、非同期データ転送パイプライン、ローカリティに基づく置換ポリシーといったシステム最適化を導入している。
公開データセットと本番データセットの両方で、最大3.1倍の高速化を達成しつつ、KVキャッシュのヒット率を98.5%以上と非常に高い水準に維持している。

要旨: 生成的レコメンデーション（GR）は優れたモデリング能力を提供しますが、長いユーザ履歴を繰り返しエンコードすることに起因して推論コストが過大になりがちです。リクエスト間のキー・バリュー（KV）キャッシュ再利用は重要な最適化機会をもたらしますが、個々のユーザ状態の巨大なスケールが、物理的なGPUの限界を大幅に超えるストレージの爆発（破綻）を引き起こします。我々は、ホストRAMをスケーラブルなバックアップ格納先として活用することで、GPUメモリを仮想化する階層型キャッシュ管理システムであるMTServeを提案します。ティア間のI/Oギャップを埋めるために、MTServeは、ハイブリッドなストレージ配置、非同期データ転送パイプライン、ローカリティに基づく置換ポリシーといった一連のシステムレベルの最適化を導入します。公開データセットおよび本番データセットの両方で、MTServeはヒット率をほぼ完全に維持したまま（>98.5%）、最大3.1*の速度向上を達成します。