Abstract
長いコンテキストは大規模言語モデルの能力を向上させますが、深刻なハードウェア上の課題ももたらします。計算量とメモリのフットプリントはシーケンス長に対して線形に増大します。特にデコーディング段階では、巨大なKVキャッシュに連続してアクセスするため、帯域幅と計算負荷が劇的に増加します。既存のアクセラレータは主に短いコンテキスト向けに設計・評価されています。そのため、長いコンテキストを処理すると著しい性能低下が生じます。このギャップを埋めるために、主要なボトルネックを特定し、ハードウェア・ソフトウェア協調設計により長いコンテキストの注意(attention)デコーディング用のハードウェアアクセラレータを提案します。ソフトウェア側では、デュアル圧縮による動的スパース注意を提案します。これは、予測オーバーヘッドを最小化するために、極低精度量子化と特徴の疎性(スパース性)を組み合わせます。さらに、ハードウェアに適した近似Top-K選択により、フィルタの複雑性を O(n \log k) から O(n) へと低減します。ハードウェア側では、疎スパース注意と長いコンテキストの複雑な相互作用によって生じるボトルネックに対処するため、計算とメモリアクセスを徹底的に最適化し、最適な協調設計方式を導出するための性能モデルも確立します。その結果、生成されるハードウェアは完全にパイプライン化された並列アーキテクチャを採用し、長いシーケンスでも O(n) の効率を達成します。実験の結果、提案設計はA100に対して3.82×の高速化と74.19×のエネルギー効率を実現します。最先端(SOTA)のアクセラレータと比較して、本研究は長いコンテキスト推論を効率的にサポートする初のASICアクセラレータであり、少なくともスループットが3.5×以上、エネルギー効率が2.08×向上しています。