要旨: マルチモーダル大規模言語モデル(MLLM)推論は、相反するハードウェアの要求を持つ2つのフェーズに分岐します。視覚エンコードは計算集約型で、言語生成はメモリ帯域幅依存型です。標準的なトランスフォーマーKVキャッシュの下では、モダリティ境界(視覚エンコードと言語モデルの間)は、標準的なステージベースの実行を維持するすべての分割点の中で、デバイス間の転送を最小化します。ここでの分割は、転送の複雑さを O(L * s_ctx) バイト(ステージレベルの分解下でのGB規模KVキャッシュ)から O(N_v * d) バイト(MB規模の埋め込み)へ、O(L) の削減をもたらします。ここで L はトランスフォーマーの深さを表します。結果は、アテンション機構(MHA/GQA)、動的な視覚解像度、およびモデルスケール全体に適用され、モデルが深くなるほど利点が大きくなります。直接的な含意として、既存のステージレベル分解システムは高帯域のインターコネクト(例: NVLink)に制約される一方で、モダリティレベル分解はコモディティPCIe上でのクロスティア異種サービングを可能にします。閉形式のコストモデルは、位相分離可能なワークロードの下でヘテロジニアス配備がコスト最適であることを示します(31.4% の節約を予測;観測は40.6%)。私たちは HeteroServe を構築しました。モダリティレベルの分割とクロスティアスケジューリングを備えた位相対応ランタイムで、LLaVA-1.5-7B および Qwen2.5-VL を vLLM v0.3.0 と比較評価します。同一の 4xA100 ハードウェア上で、エンジン最適化によりスループットは最大 54% 向上します。固定予算の下で、ヘテロジニアスクラスター(38k)は、同質ベースライン(64k)よりも Tokens/$ を37% 改善し、遅延を悪化させることなく運用します。
階層間GPU異種性を活用したコスト効率の高いマルチモーダルLLM推論
arXiv cs.AI / 2026/3/16
💬 オピニオンDeveloper Stack & InfrastructureIdeas & Deep AnalysisTools & Practical UsageModels & Research
要点
- 本論文はマルチモーダルLLM推論を分析し、ビジョンエンコーダと言語モデルの境界での分割が、ステージベースの実行を維持しつつ、パーティション点を跨ぐデバイス間転送を最小化することを示している。
- 本研究はモダリティレベルのパーティショニングと階層間スケジューリングに対応するフェーズ認識ランタイムHeteroServeを紹介し、4x A100で最大54%のスループット向上、固定予算下でのトークン当たりのコスト改善を37%達成する。
- このアプローチはデバイス間データ転送を O(L * s_ctx) から O(N_v * d) に削減し、NVLinkのような高帯域のインターコネクトを使わずPCIeベースの低コスト展開を可能にする。
- LLaVA-1.5-7BとQwen2.5-VLに対するvLLM v0.3.0の評価は、モデルの深さに応じてスケールする結果を示し、予測コスト削減は31.4%(観測値は40.6%)となる。