AMD Instinct GPUにおけるアーキテクチャを意識したLLM推論最適化: 包括的ベンチマークと展開検討

arXiv cs.AI / 2026/3/12

💬 オピニオンDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research

共有:

要点

本研究は、vLLM v0.14.1を用い、8-GPUクラスタ（総計2TBのHBM3e）上で、235Bから1兆パラメータに及ぶ4モデルのAMD Instinct MI325X GPUにおける実運用LLM推論をベンチマークし、アーキテクチャを意識した最適化が不可欠であることを示した。
MLAモデルはブロックサイズを1に固定する必要があり、KVキャッシュのオフローディングは利用できない。一方、GQAモデルはブロックサイズとKVキャッシュのオフローディングの両方の恩恵を受ける。
競争力のあるMLA推論スループットにはAMD AITERランタイムが必要であり、アテンションヘッド構成が互換性のないアーキテクチャでは選択的に無効化する必要がある。
Llama-3.1-405Bに対する制御されたAITERアブレーション（条件ごとにn=5）は、高い同時実行性時に3-5%のスループット利得を示す一方、測定のばらつきは2-16倍に達し、AITERの大規模なスピードアップはMoE/MLAカーネルを特異的に狙っていることを確認した。
テキストのみのワークロードでは、Llama-405BとDeepSeek V3.2は、それぞれピークスループットが15,944トークン/秒と15,343トークン/秒に達する一方、視覚ワークロードではQwen3-VL-235Bが47,873トークン/秒を達成し、全モデルがメモリ帯域幅のボトルネックに直面している。短いシーケンスで約500の同時、長いシーケンスで約100-200で飽和する一方、1,000の同時ユーザーまでHTTPレベルで100%の成功率を維持し、17,406リクエストで18.9百万トークンを処理して失敗なし。

本文: arXiv:2603.10031v1 Announce Type: cross

要旨: 私たちは、AMD Instinct MI325X GPU上の実運用LLM推論のアーキテクチャ間横断評価を提示し、3つのアーキテクチャファミリ（MoE+MLA、Dense+GQA、MoE+GQA）にまたがる4モデル（235B〜1兆パラメータ）を、HBM3e総計2TBを搭載した8GPUクラスタ上で、vLLM v0.14.1を用いてベンチマークした。我々の結果は、アーキテクチャを意識した最適化が不可欠であることを示す。MLAモデルはブロックサイズを1に固定する必要があり、KVキャッシュのオフローディングは利用できない。一方、GQAモデルはブロックサイズとKVキャッシュのオフローディングの両方の恩恵を受ける。競争力のあるMLA推論スループットにはAMD AITERランタイムが必要であり、互換性のないアテンションヘッド構成を持つアーキテクチャでは選択的に無効化する必要がある。Llama-3.1-405Bにおける制御されたAITERアブレーション（条件ごとにn=5）は、高い同時実行性時に3-5%のスループット利得を示す一方、測定のばらつきは2-16倍に達し、AITERの大規模なスピードアップはMoE/MLAカーネルを特異的に狙っていることを確認した。テキストのみのワークロードでは、Llama-405BとDeepSeek V3.2は、アクティブパラメータ数の桁違いにもかかわらず、ピークスループットがほぼ同等である（15,944トークン/秒、15,343トークン/秒）。視覚ワークロードではQwen3-VL-235Bが47,873トークン/秒を達成し、Kimi-K2.5（7,327トークン/秒）より6.5倍高い。アクティブパラメータ数とトークンあたりの推論スループットには関連があるが、量子化、AITER加速、テンソル並列性の違いにより混乱が生じる。4モデルすべてが、メモリ帯域幅ボトルネックと一致する共通のスループット飽和点を示す（短いシーケンスで約500の同時、長いシーケンスで約100-200）。すべてのモデルは、1000の同時ユーザーまでHTTPレベルで100%の成功率を維持し、17,406リクエストで18.9百万トークンを処理して失敗なし。

EU AI Act適合性のために11,529台のMCPサーバをスキャンしました

Dev.to

追跡業務の自動化：フェスティバル出店者のコンプライアンスのためのAI

Dev.to

MCPスキルとMCPツール: サーバーを正しく構成する方法

Dev.to

テックキャリアに4年間も費やしている

Dev.to

2026年にすべてのコンテンツクリエイターが必要とする500のAIプロンプト（20件の無料サンプル付き）

Dev.to

AMD Instinct GPUにおけるアーキテクチャを意識したLLM推論最適化: 包括的ベンチマークと展開検討

要点

関連記事

EU AI Act適合性のために11,529台のMCPサーバをスキャンしました

追跡業務の自動化：フェスティバル出店者のコンプライアンスのためのAI

MCPスキルとMCPツール: サーバーを正しく構成する方法

テックキャリアに4年間も費やしている

2026年にすべてのコンテンツクリエイターが必要とする500のAIプロンプト（20件の無料サンプル付き）

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer