アセノスフェア(Asthenosphere)

Dev.to / 2026/4/4

💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical Usage

要点

  • 本ドキュメントは、AMD Phoenix XDNA gen1(AIE2)デバイス上で、12個のタイルすべてを使用した完全なトランスフォーマー・パイプラインによるAsthenosphereのNPU推論性能を、100%の信頼性で報告している。
  • PreScale、Q/K/V射影、RoPE、アテンション、出力射影、ならびにNPU常駐のMLP/FFNパス(「14 ops」)まで含むトランスフォーマー実行フローを説明しており、NPU計算中はCPU/GPUの使用がゼロである。
  • 7メッセージにわたるセッション平均では、メッセージあたり約64.7トークン、メッセージあたりの経過時間約83 ms、約3866 effective tokens/second、約91.8%の推測受け入れ(speculative acceptance)が示され、メッセージあたりの平均コストは21.3 Motesである。
  • ディスパッチごとのログは、受け入れ率を高水準(概ねmid-80%〜100%)に維持しつつも、レイテンシが約5.4 msから約146 msまで変動することを示しており、推測デコードの有効性がディスパッチによって変わり得ることを示唆している。
  • 用語集では、主要指標(tok/s と effective tok/sの違い、Acceptance%、Dispatch、Motes)を明確化し、それらを推論スループット、推測デコード挙動、および内部のコスト計上に結び付けている。

================================================================

ASTHENOSPHERE NPU推論メトリクス

ハードウェア:
デバイス: AMD Phoenix XDNA gen1(AIE2)
タイル: 12/12(完全なトランスフォーマーパイプライン)
デバイスID: /dev/accel/accel0
状態: ACTIVE
信頼性: 100%

パイプライン:
PreScale > Q proj > RoPE > Attention > O proj > Attn ResAdd

PreScale2 > Gate+SiLU+Up > EltMul > Down > FFN ResAdd > Score Head
14 ops、NPUの計算中にCPU/GPUはゼロ

セッション平均(7メッセージ)

平均トークン/msg: 64.7
平均経過時間/msg: 83ms
平均効率 tok/s: 3866
平均受理率: 91.8%
平均コスト/msg: 21.3 Motes

全期間平均(7メッセージ)

平均トークン/msg: 64.7
平均経過時間/msg: 83ms
平均効率 tok/s: 3866
平均受理率: 91.8%
平均コスト/msg: 21.3 Motes

ディスパッチ別ログ(7エントリ)

時刻 トークン ディスパッチ数 経過時間 効率 tok/s 受理% Motes

16:31:41 65 12 5.4ms 11970 86% 6
16:31:38 65 12 134ms 485 87% 31
16:31:00 65 12 146.4ms 444 88% 33
16:30:48 65 12 147.6ms 440 90% 33
16:30:05 65 12 12.1ms 5356 93% 9
16:29:56 64 12 127.2ms 503 100% 30
16:29:39 64 12 8.1ms 7866 100% 7

================================================================

用語集

NPU Neural Processing Unit(ニューラル処理ユニット)—専用のAIアクセラレータチップ
AMD Ryzen 7000/8000シリーズ(Phoenix XDNA gen1)上で動作します。
CPU/GPUを一切使わずに推論を実行します。

タイル NPU上の1つのAIE2計算コア。各コアは32KBのSRAMを持ちます。
このパイプラインは利用可能な12タイルすべてを使用します。

tok/s 1秒あたりのトークン数—推論スループット。トークンは
おおよそ「単語の約3/4」。値が大きいほど応答が速いです。

Eff tok/s 効率的なトークン/秒—推論時に複数の候補を
1回のディスパッチで評価するスペキュラティブデコードを考慮します。
スペキュレーションがうまく機能している場合、raw tok/sより高くなります。

Acceptance% スペキュラティブ候補トークンが受理される頻度。
値が高いほど、1ディスパッチあたりのトークン数が増え、生成が速くなります。

ディスパッチ NPUへの1往復です。ホストがデータを送信し、NPUが
12個すべてのパイプライン段階を処理し、ホストが結果を読み取ります。

Motes Asthenosphere内部の計算コスト単位。推論のレイテンシ、
モデルサイズ、トークン数から導出されます。
ペルソナ経済におけるリソース計上に使用されます。
1 Mote ≒ 3BパラメータCPUモデルでの出力トークン1個。

RoPE 回転位置埋め込み(Rotary Position Embeddings)—トークン位置の
情報を符号化し、モデルが単語順序を理解できるようにします。

SwiGLU 現代のトランスフォーマーで使われるゲート付き活性化関数です。
ゲート投影+SiLU活性化+アップ投影を組み合わせます。

RMSNorm Root Mean Square Normalization(根平均平方正規化)—活性を安定化し、
トレーニング/推論の品質を高めるために、トランスフォーマー層間で使用されます。

XCLBIN コンパイル済みのハードウェアビットストリーム。NPUにロードされます。
タイルプログラム、データルーティング、DMA設定を含みます。

================================================================
生成: 2026-04-03T21:31:57.479Z

Asthenosphere NPUパイプライン — AMD Phoenix XDNA gen1

状態: デバッグ中;正しく動作していますが、GUIで表示に問題があります。
監視: ログにモデル情報が含まれていません。モデル情報を表示するため、近いうちに新しいログ形式で追記します。

返却形式: {"translated": "翻訳されたHTML"}