DHFP-PE:AI加速のためのデュアル精度ハイブリッド浮動小数点処理エレメント

arXiv cs.RO / 2026/4/7

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、エネルギー効率の高いAIおよびエッジワークロード向けに最適化された、完全にパイプライン化されたデュアル精度浮動小数点MAC処理エレメントを提案する。FP8(E4M3、E5M2)とFP4(E2M1、E1M2)の両方のフォーマットに対応する。
  • 単一の4ビット乗算器を、FP8演算では従来の4×4乗算として、また小さなオペランドの場合では2つの並列な2×2乗算として振る舞わせることを可能にするビット分割手法を導入し、ロジックの重複なしにハードウェアの利用率を最大化する。
  • 設計は28nmプロセスで実装され、動作周波数1.94GHz、面積0.00396mm²、消費電力2.13mWが報告されている。
  • 従来の最先端アプローチと比較して、本アーキテクチャは最大で面積を60.4%削減し、電力を86.6%節約できると主張しており、低精度・MAC中心のアクセラレータに対する高い効率性の可能性を示している。
  • 本研究は、低精度演算に依存するAIシステムにおいてスループット/ワットを向上させ得る、アクセラレータ向けのハードウェア構成要素として位置付けられる。

Abstract

人工知能およびエッジコンピューティングにおける低精度演算の急速な普及は、省エネルギーで柔軟な浮動小数点乗算加算(MAC)ユニットに対する強い需要を生み出しました。本論文では、FP8形式(E4M3、E5M2)およびFP4形式(E2M1、E1M2)をサポートする、完全にパイプライン化されたデュアル精度浮動小数点MAC処理エンジンを提案します。このエンジンは、低消費電力かつ高スループットのAIワークロードに特化して最適化されています。提案アーキテクチャは、新しいビット分割(bit-partitioning)手法を採用しており、単一の4ビット・ユニット・マルチプライヤが、FP8に対する標準の4×4乗算として動作するか、あるいは2ビット演算子に対して2つの並列2×2乗算として動作することを可能にします。これにより、ロジックを重複させることなく、100%のハードウェア利用率を達成します。28 nm技術で実装した提案処理エンジンは、面積0.00396 mm^2、消費電力2.13 mWで、動作周波数1.94 GHzを実現し、最先端設計と比較して最大60.4%の面積削減および86.6%の電力節約をもたらします。