最新のマルチモーダル大規模言語モデルパイプラインにおけるピークメモリ使用量の削減

arXiv cs.CV / 2026/4/21

📰 ニュースDeveloper Stack & InfrastructureModels & Research

共有:

要点

マルチモーダル大規模言語モデルでは推論時に視覚トークンを大量にKV（キー・バリュー）キャッシュへ保存するため、モデルが大きくなるほどメモリ消費が主要なボトルネックになります。
従来のKVキャッシュ圧縮は、入力処理をすべて終えた後に適用されることが多く、プリフィル段階でピークメモリ使用量が高止まりしがちです。
本論文は、MLLMが持つ構造的な規則性と表現上の冗長性を利用することで、推論全体を通じてメモリ増加を抑えられると主張しています。
そこで、プリフィル中に構造を考慮したKVキャッシュ圧縮を行い、固定のメモリ予算を守る「逐次的な入力圧縮」手法を提案します。
実験では、生成性能の劣化がわずかである一方でピークメモリ使用量を大幅に削減でき、マルチモーダル推論の実用性とメモリエフィシェンシーが向上すると示しています。