ZoomR:マルチグラニュラリティのキー・バリュー取得によるメモリ効率の高い推論

arXiv cs.LG / 2026/4/15

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • この論文は、長文形式の推論中にLLMのメモリ使用量を削減するための手法ZoomRを提案する。冗長な中間思考を要約へと適応的に圧縮することで、メモリ消費を抑える。
  • ZoomRは、階層的な取得を行う動的なキー・バリュー(KV)キャッシュ選択ポリシーを導入する。復号(デコード)中はまず要約キーを粗いインデックスとして用い、必要になったときだけ「ズームイン」して詳細レベルの情報を取得する。
  • ZoomRは各デコードステップでフルキャッシュへの注意(attention)を回避するため、出力長に応じてKVキャッシュサイズが増大することが主要なボトルネックである点に着目している。
  • 数学および推論ベンチマークでの実験では、ベースラインと競争力のある性能を示しつつ、推論時のメモリ要件を4倍以上削減する。
  • これらの結果は、マルチグラニュラリティのKV選択が、長い出力を必要とするタスクに対して自己回帰的デコードをよりスケーラブルにできることを示唆している。

要旨: 大規模言語モデル(LLM)は複雑な推論タスクにおいて優れた性能を示しているものの、多くの場合、最終的な回答に到達する前に長い中間的な思考を生成する必要があります。生成の過程で、LLMは自己回帰的デコーディングのための鍵(Key)と値(Value)からなるキーバリュー(KV)キャッシュに依存します。しかし、KVキャッシュのメモリ使用量は出力長に応じて増大します。これまでのKVキャッシュ最適化に関する先行研究は主に、長い入力コンテキストを圧縮することに焦点を当ててきましたが、デコーディングのためには完全なKVキャッシュを保持するままでした。長い出力生成を必要とするタスクでは、これにより計算コストとメモリコストが増加します。本論文では、LLMが冗長な推論の思考を要約へと適応的に圧縮できる新しいアプローチであるZoomRを導入します。また、要約を活用しつつ、微細な詳細に対して戦略的に「ズームイン」する動的なKVキャッシュ選択ポリシーも用います。デコーディング中、要約キーを粗い粒度のインデックスとして使用することで、ZoomRはクエリを用いて最も重要な思考に対する詳細情報のみを取得します。この階層的戦略により、各ステップでフルキャッシュの注意を回避することで、メモリ使用量を大幅に削減します。数学および推論タスクにまたがる実験では、提案手法がベースラインと競争力のある性能を達成しつつ、推論時のメモリ要求を4\times以上削減できることを示しました。これらの結果は、多粒度のKV選択が、特に長い出力生成において、よりメモリ効率の高いデコーディングを可能にすることを示しています。