AI Navigate

自己調整型スパースアテンション:トランスフォーマー加速のためのマルチフィデリティ評価を用いたハイパーパラメータ最適化

arXiv cs.LG / 2026/3/20

📰 ニュースDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

要点

  • AFBS-BOは、ベイズ最適化と二分探索およびマルチフィデリティ評価を組み合わせ、層ごと・ヘッド固有のスパースアテンションのハイパーパラメータを自動的に発見し、人手によるチューニングを必要としない。
  • スパースアテンションを自己最適化プリミティブへと変換することで、実運用性を高め、トランスフォーマーアーキテクチャ全体でのプラグアンドプレー加速を可能にする。
  • Llama-2-7B において、AFBS-BOはグリッド探索と比較して評価回数を約8.8分の1に抑えつつ、ハイパーパラメータ探索を約3.4倍速く実現し、高スパース性の設定がdense品質の結果にほぼ匹敵する一方、既存のスパースベースラインを上回る。
  • このアプローチはスパースアテンションの実用性を広げ、多様なドメインやワークロードでの展開を潜在的に加速する。

要旨: 疎結合のアテンション機構は、長い文脈を扱うトランスフォーマーの二乗計算のボトルネックを打破することを約束しますが、実運用での採用は重要な使い勝手のギャップによって制限され続けています。最適なハイパーパラメータは層とモデル間で大きく異なり、現在の手法(例:SpargeAttn)はそれらを特定するための手動のグリッド探索に依存しています。我々は AFBS-BO(Adaptive Fidelity Binary Search with Bayesian Optimization、適応忠実度バイナリ探索とベイズ最適化)を提案します。これは人間の介入なしに、最適なレイヤー別およびヘッド別のハイパーパラメータを発見する完全自動化フレームワークです。我々のハイブリッドアルゴリズムは、全体探索のためのベイズ最適化と局所的な洗練のためのバイナリ探索を組み合わせ、シーケンス長を跨ぐ複数の忠実度評価を活用してチューニングコストを削減します。Llama-2-7B において、AFBS-BOはグリッド探索より評価回数を8.8分の1に削減しつつ、ハイパーパラメータ探索を3.4倍の速度で加速し、高い疎性を持つ構成を特定して既存の疎結合アテンションのベースラインを上回り、密結合アテンションの品質にもほぼ一致します。手動で調整されたヒューリスティックなアプローチから自己最適化プリミティブへと変換することにより、AFBS-BOは多様なトランスフォーマーアーキテクチャとドメインにおけるプラグアンドプレーの加速を可能にします。