必要に応じてヘッド予算を適応配分することで効率化するマルチヘッド・アテンション

arXiv cs.LG / 2026/4/27

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、標準的なマルチヘッド・アテンションが各入力に対して全ヘッドを一律に用いるため、計算を無駄にしたり、入力に応じて必要なヘッド数が少ない場合に性能が低下したりし得ると指摘しています。
  • BudgetFormerを提案し、入力ごとに学習した「ヘッド予算(必要なヘッド数)」と「関連度分布(情報量の多いヘッドを選ぶ)」により、アテンション・ヘッド資源を動的に配分します。
  • 有効なヘッド構成を見つけるために、探索と活用のトレードオフを考慮した学習戦略も導入します。
  • 様々な複雑さのテキスト分類タスクでの実験では、推論時の計算量(FLOPs)とメモリ使用量が削減され、かつフルなマルチヘッド・アテンションを上回る(または同等の)性能が示されています。
  • 著者らは、適応的なヘッド割当がTransformerの効率と有効性の両方を改善するための筋の良いアプローチになり得ると結論づけています。

Abstract

トランスフォーマーは、多様な表現サブスペースを捉える上でのマルチヘッド注意の有効性により、幅広い領域において支配的なアーキテクチャとなっている。しかし、標準的なマルチヘッド注意は、入力ごとにすべてのヘッドを一様に活性化し、タスク要件や入力の複雑さに関係なく処理を行う。多くの場面、特にテキスト分類のような粗視的なタスクでは、関連情報はしばしばグローバルであり、注意ヘッドの完全な多様性を必要としない。その結果、固定数のヘッドを用いることは、配分が入力と一致しない場合に、不必要な計算コストを増やしたり、性能が最適にならない原因となりうる。この制限に対処するため、我々は、計算資源を動的に割り当てる適応的マルチヘッド注意メカニズムを備えたトランスフォーマー・アーキテクチャである BudgetFormer を提案する。我々の手法は、各入力に対して、必要とされる注意ヘッド数に対応するヘッド予算と、最も情報量の多いヘッドを選択する関連度分布の両方を学習する。さらに、探索と活用(exploitation)のトレードオフに基づく学習戦略も提案し、効率的な使用パターンへ収束する前に、モデルが効果的なヘッド構成を見出せるようにする。複雑さの異なるテキスト分類タスクに関する実験では、我々の手法が、FLOPs とメモリの観点で推論コストを削減しつつ、標準的なフル・マルチヘッド注意を上回る性能も達成できることを示している。これらの結果は、適応的なヘッド割り当てが、トランスフォーマーモデルの効率と有効性の両方を改善するための、原理に基づくアプローチとしての可能性を持つことを示唆している。