Tempus:Versal AIエッジ向けの「時間的にスケーラブル」かつ「リソース不変」GEMMストリーミングフレームワーク
arXiv cs.RO / 2026/5/4
💬 オピニオンDeveloper Stack & InfrastructureModels & Research
要点
- Tempusは、計算・メモリ・電力といったエッジの厳しい制約下で、LLM推論の効率を高めるためにAMD Versal AI Edge SoC向けに提案されたGEMMストリーミングフレームワークです。
- このフレームワークは、数百コアにワークロードを分散する「空間スケーリング」(エッジで物理的な実装不良や帯域飽和、過剰なリソース消費を招き得る)に頼らず、固定16 AIE-MLコアの計算ブロックを用います。
- Tempusは、高速カスケードストリーミングとデッドロックフリーのDATAFLOWプロトコルにより、部分和の削減をイニシエーション間隔(II)=1で行い、転送と計算の重なりを最大化します。
- 評価したGEMMワークロードでは、オンチップ電力10.677 Wで607 GOPSを報告し、Platform-Aware Utility(PAU)に基づく分析では空間SOTA(ARIES)に対して211.2×の優位性(prominence factor)を示したとしています。
- さらに、URAM/DSPの利用率0.00%を維持しつつ、コアの節約(22.0×)、電力の節約(7.1×)、I/O需要の削減(6.3×)といった効率面の改善も主張しています。



