AI Navigate

AMD Instinct GPUにおけるアーキテクチャを意識したLLM推論最適化: 包括的ベンチマークと展開検討

arXiv cs.AI / 2026/3/12

💬 オピニオンDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research

要点

  • 本研究は、vLLM v0.14.1を用い、8-GPUクラスタ(総計2TBのHBM3e)上で、235Bから1兆パラメータに及ぶ4モデルのAMD Instinct MI325X GPUにおける実運用LLM推論をベンチマークし、アーキテクチャを意識した最適化が不可欠であることを示した。
  • MLAモデルはブロックサイズを1に固定する必要があり、KVキャッシュのオフローディングは利用できない。一方、GQAモデルはブロックサイズとKVキャッシュのオフローディングの両方の恩恵を受ける。
  • 競争力のあるMLA推論スループットにはAMD AITERランタイムが必要であり、アテンションヘッド構成が互換性のないアーキテクチャでは選択的に無効化する必要がある。
  • Llama-3.1-405Bに対する制御されたAITERアブレーション(条件ごとにn=5)は、高い同時実行性時に3-5%のスループット利得を示す一方、測定のばらつきは2-16倍に達し、AITERの大規模なスピードアップはMoE/MLAカーネルを特異的に狙っていることを確認した。
  • テキストのみのワークロードでは、Llama-405BとDeepSeek V3.2は、それぞれピークスループットが15,944トークン/秒と15,343トークン/秒に達する一方、視覚ワークロードではQwen3-VL-235Bが47,873トークン/秒を達成し、全モデルがメモリ帯域幅のボトルネックに直面している。短いシーケンスで約500の同時、長いシーケンスで約100-200で飽和する一方、1,000の同時ユーザーまでHTTPレベルで100%の成功率を維持し、17,406リクエストで18.9百万トークンを処理して失敗なし。

本文: arXiv:2603.10031v1 Announce Type: cross

要旨: 私たちは、AMD Instinct MI325X GPU上の実運用LLM推論のアーキテクチャ間横断評価を提示し、3つのアーキテクチャファミリ(MoE+MLA、Dense+GQA、MoE+GQA)にまたがる4モデル(235B〜1兆パラメータ)を、HBM3e総計2TBを搭載した8GPUクラスタ上で、vLLM v0.14.1を用いてベンチマークした。我々の結果は、アーキテクチャを意識した最適化が不可欠であることを示す。MLAモデルはブロックサイズを1に固定する必要があり、KVキャッシュのオフローディングは利用できない。一方、GQAモデルはブロックサイズとKVキャッシュのオフローディングの両方の恩恵を受ける。競争力のあるMLA推論スループットにはAMD AITERランタイムが必要であり、互換性のないアテンションヘッド構成を持つアーキテクチャでは選択的に無効化する必要がある。Llama-3.1-405Bにおける制御されたAITERアブレーション(条件ごとにn=5)は、高い同時実行性時に3-5%のスループット利得を示す一方、測定のばらつきは2-16倍に達し、AITERの大規模なスピードアップはMoE/MLAカーネルを特異的に狙っていることを確認した。テキストのみのワークロードでは、Llama-405BとDeepSeek V3.2は、アクティブパラメータ数の桁違いにもかかわらず、ピークスループットがほぼ同等である(15,944トークン/秒、15,343トークン/秒)。視覚ワークロードではQwen3-VL-235Bが47,873トークン/秒を達成し、Kimi-K2.5(7,327トークン/秒)より6.5倍高い。アクティブパラメータ数とトークンあたりの推論スループットには関連があるが、量子化、AITER加速、テンソル並列性の違いにより混乱が生じる。4モデルすべてが、メモリ帯域幅ボトルネックと一致する共通のスループット飽和点を示す(短いシーケンスで約500の同時、長いシーケンスで約100-200)。すべてのモデルは、1000の同時ユーザーまでHTTPレベルで100%の成功率を維持し、17,406リクエストで18.9百万トークンを処理して失敗なし。