要旨: 大規模ビジョン・言語モデル(VLM)はマルチモーダル推論において目覚ましい成功を収めていますが、推論時間の効率性は依然として大きな課題です。特に、VLMのクエリと回答が長い一連の視覚トークンおよびテキストトークンから構成される場合、デコード中のメモリオーバーヘッドにより効率が低下します。本論文では、デコード中のメモリ効率を改善する、大規模ビジョン・言語モデル向けの適応的かつ注意(attention)を考慮した最適化フレームワークであるAttentionPackを提案します。高解像度の複数の画像または動画を用いる、長文脈タスクにおいて、入力の視覚数の増加や相互作用の増大に起因する課題に焦点を当てます。AttentionPackは2点において新規性があります。 (i) 暗黙の低ランク構造を活用することで、キー行列とバリュー行列を経済的に保存するためのマルチヘッド注意圧縮手法を導入すること、(ii) レイテンシのオーバーヘッドを削減するための、トークン固有の注意に基づく復元(decompression)メカニズムを開発することです。複数のベンチマークにおける実験結果は、AttentionPackがメモリ効率を最大8倍まで向上させ、モデル出力の品質を維持しつつ、より大きなバッチサイズおよびより高速なバッチ推論を可能にするか、あるいは優れた検索性能のためにより長いコンテキスト長を実現することを示しています。さらに、エビクション(eviction)、量子化(quantization)、カーネル融合(kernel fusion)と組み合わせたAttentionPackの有効性についても報告し、リソースが限られた環境におけるさらなる効率向上を示します。
メモリ効率の高いデコーディングによる、大規模ビジョン・ランゲージモデルのための注意(アテンション)を考慮した推論最適化
arXiv cs.CV / 2026/3/26
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文は、長い視覚/テキスト系列に対する大規模ビジョン・ランゲージモデル(VLM)の推論時にメモリオーバーヘッドを削減することを目的とした、適応的で注意(アテンション)を考慮したデコーディング最適化フレームワーク「AttentionPack」を提案する。
- 隠れた低ランク構造を活用して、デコーディング中にキー/バリュー行列をより経済的に保存するための、多ヘッド注意のコンパクション(圧縮)を提案する。
- さらに、出力品質を維持しながらレイテンシコストを低減するために、トークン固有の注意を考慮した復元(デコンプレッション)を追加する。
- 複数のベンチマークでの実験により、最大8×のメモリ効率向上が示されており、より大きなバッチサイズと高速なバッチ推論を可能にする、またはより良い検索のために長い文脈をサポートできる。
- 著者らはさらに、AttentionPackをエビクション(退避)、量子化、カーネル融合と組み合わせることで、資源が限られた環境において追加の効率向上が得られることを報告している。