本文: arXiv:2603.10031v1 Announce Type: cross
要旨: 私たちは、AMD Instinct MI325X GPU上の実運用LLM推論のアーキテクチャ間横断評価を提示し、3つのアーキテクチャファミリ(MoE+MLA、Dense+GQA、MoE+GQA)にまたがる4モデル(235B〜1兆パラメータ)を、HBM3e総計2TBを搭載した8GPUクラスタ上で、vLLM v0.14.1を用いてベンチマークした。我々の結果は、アーキテクチャを意識した最適化が不可欠であることを示す。MLAモデルはブロックサイズを1に固定する必要があり、KVキャッシュのオフローディングは利用できない。一方、GQAモデルはブロックサイズとKVキャッシュのオフローディングの両方の恩恵を受ける。競争力のあるMLA推論スループットにはAMD AITERランタイムが必要であり、互換性のないアテンションヘッド構成を持つアーキテクチャでは選択的に無効化する必要がある。Llama-3.1-405Bにおける制御されたAITERアブレーション(条件ごとにn=5)は、高い同時実行性時に3-5%のスループット利得を示す一方、測定のばらつきは2-16倍に達し、AITERの大規模なスピードアップはMoE/MLAカーネルを特異的に狙っていることを確認した。テキストのみのワークロードでは、Llama-405BとDeepSeek V3.2は、アクティブパラメータ数の桁違いにもかかわらず、ピークスループットがほぼ同等である(15,944トークン/秒、15,343トークン/秒)。視覚ワークロードではQwen3-VL-235Bが47,873トークン/秒を達成し、Kimi-K2.5(7,327トークン/秒)より6.5倍高い。アクティブパラメータ数とトークンあたりの推論スループットには関連があるが、量子化、AITER加速、テンソル並列性の違いにより混乱が生じる。4モデルすべてが、メモリ帯域幅ボトルネックと一致する共通のスループット飽和点を示す(短いシーケンスで約500の同時、長いシーケンスで約100-200)。すべてのモデルは、1000の同時ユーザーまでHTTPレベルで100%の成功率を維持し、17,406リクエストで18.9百万トークンを処理して失敗なし。