Tempus:Versal AIエッジ向けの「時間的にスケーラブル」かつ「リソース不変」GEMMストリーミングフレームワーク

arXiv cs.RO / 2026/5/4

💬 オピニオンDeveloper Stack & InfrastructureModels & Research

要点

  • Tempusは、計算・メモリ・電力といったエッジの厳しい制約下で、LLM推論の効率を高めるためにAMD Versal AI Edge SoC向けに提案されたGEMMストリーミングフレームワークです。
  • このフレームワークは、数百コアにワークロードを分散する「空間スケーリング」(エッジで物理的な実装不良や帯域飽和、過剰なリソース消費を招き得る)に頼らず、固定16 AIE-MLコアの計算ブロックを用います。
  • Tempusは、高速カスケードストリーミングとデッドロックフリーのDATAFLOWプロトコルにより、部分和の削減をイニシエーション間隔(II)=1で行い、転送と計算の重なりを最大化します。
  • 評価したGEMMワークロードでは、オンチップ電力10.677 Wで607 GOPSを報告し、Platform-Aware Utility(PAU)に基づく分析では空間SOTA(ARIES)に対して211.2×の優位性(prominence factor)を示したとしています。
  • さらに、URAM/DSPの利用率0.00%を維持しつつ、コアの節約(22.0×)、電力の節約(7.1×)、I/O需要の削減(6.3×)といった効率面の改善も主張しています。

Abstract

大規模言語モデル(LLM)のためのスケーリング則は、計算規模を大きくするほどモデル品質が向上することを示しているが、一方でエッジへの展開では計算・メモリ・電力に厳しい制約が課される。汎用行列積(GEMM)は推論時間の最大90\%を占めるため、エッジAIにおけるGEMMの効率的な加速が極めて重要である。AMD Versalの適応型SoCで利用可能なAdaptive Intelligent Enginesはこの用途に適しているが、既存の最先端(SOTA)フレームワークは、数百のコアにワークロードを分散して空間スケーリングにより性能を最大化するという手法を採っている。しかしこのアプローチは、物理的な実装失敗、帯域の飽和、過剰なリソース消費のため、リソースに制限のあるエッジSoCでは破綻する。我々は、AMD Versal AI Edge SoC向けの、リソース不変の時間的(Temporal)GEMMフレームワークであるTempusを提案する。行列サイズに合わせてハードウェア資源を拡張する代わりに、Tempusは16 AIE-MLコアからなる固定の計算ブロックを用い、Programmable Logic上でのアルゴリズム的データタイル化とレプリケーション、および反復的なグラフ実行によってスケーラビリティを実現する。高速なカスケード・ストリーミングにより、Initiation Interval(II)=1で低遅延の部分和(partial sum)削減を保証し、デッドロックのないDATAFLOWプロトコルにより、転送と計算のオーバーラップを最大化するとともに、PLIOの再利用を可能にする。GEMMワークロードで評価したところ、Tempusは総オンチップ電力10.677 Wで607 GOPSを達成する。Platform-Aware Utility(PAU)指標によりシステム全体の効率を特徴付けることで、Tempusが、主要な空間SOTA(ARIES)よりも211.2倍高い顕著性係数(prominence factor)を実現することを示す。さらに、このフレームワークはURAM/DSPの利用率を0.00\%に維持し、22.0倍のコア節約(core frugality)、7.1倍の電力節約(power frugality)、およびI/O要求の6.3倍削減をもたらし、エッジLLM推論のための持続可能でスケーラブルな基盤を確立する。