Salca:長い文脈の注意(アテンション)デコーディングを効率化するスパース性対応ハードウェアアクセラレータ

arXiv cs.AI / 2026/4/29

📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research

要点

  • この論文は、長文脈のLLM推論における主要ボトルネックとして、デコーディング中に注意が大規模なKVキャッシュへ継続的にアクセスすることで、シーケンス長に応じて帯域幅と計算負荷が増大する点を指摘しています。
  • ソフトウェア側では、超低精度量子化と特徴スパース性を組み合わせた「デュアル圧縮ダイナミック・スパース注意」により、オーバーヘッドを抑える提案を行っています。
  • フィルタリングの計算複雑度を下げるために、ハードウェアに適した近似Top-K選択を用い、コストをO(n log k)からO(n)へ削減しています。
  • ハードウェア側では、スパース注意と長文脈の相互作用に起因するボトルネックに対処するため、計算とメモリアクセスを深く最適化し、性能モデルに基づいて最適な共同設計を導いています。
  • 実験ではA100に対して3.82×の高速化と74.19×のエネルギー効率を報告し、長文脈推論を効率的に支えるASICアクセラレータとして、従来のSOTAに比べてスループットが少なくとも3.5×、エネルギー効率が少なくとも2.08×向上すると主張しています。

Abstract

長いコンテキストは大規模言語モデルの能力を向上させますが、深刻なハードウェア上の課題ももたらします。計算量とメモリのフットプリントはシーケンス長に対して線形に増大します。特にデコーディング段階では、巨大なKVキャッシュに連続してアクセスするため、帯域幅と計算負荷が劇的に増加します。既存のアクセラレータは主に短いコンテキスト向けに設計・評価されています。そのため、長いコンテキストを処理すると著しい性能低下が生じます。このギャップを埋めるために、主要なボトルネックを特定し、ハードウェア・ソフトウェア協調設計により長いコンテキストの注意(attention)デコーディング用のハードウェアアクセラレータを提案します。ソフトウェア側では、デュアル圧縮による動的スパース注意を提案します。これは、予測オーバーヘッドを最小化するために、極低精度量子化と特徴の疎性(スパース性)を組み合わせます。さらに、ハードウェアに適した近似Top-K選択により、フィルタの複雑性を O(n \log k) から O(n) へと低減します。ハードウェア側では、疎スパース注意と長いコンテキストの複雑な相互作用によって生じるボトルネックに対処するため、計算とメモリアクセスを徹底的に最適化し、最適な協調設計方式を導出するための性能モデルも確立します。その結果、生成されるハードウェアは完全にパイプライン化された並列アーキテクチャを採用し、長いシーケンスでも O(n) の効率を達成します。実験の結果、提案設計はA100に対して3.82×の高速化と74.19×のエネルギー効率を実現します。最先端(SOTA)のアクセラレータと比較して、本研究は長いコンテキスト推論を効率的にサポートする初のASICアクセラレータであり、少なくともスループットが3.5×以上、エネルギー効率が2.08×向上しています。