必要に応じてヘッド予算を適応配分することで効率化するマルチヘッド・アテンション
arXiv cs.LG / 2026/4/27
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文は、標準的なマルチヘッド・アテンションが各入力に対して全ヘッドを一律に用いるため、計算を無駄にしたり、入力に応じて必要なヘッド数が少ない場合に性能が低下したりし得ると指摘しています。
- BudgetFormerを提案し、入力ごとに学習した「ヘッド予算(必要なヘッド数)」と「関連度分布(情報量の多いヘッドを選ぶ)」により、アテンション・ヘッド資源を動的に配分します。
- 有効なヘッド構成を見つけるために、探索と活用のトレードオフを考慮した学習戦略も導入します。
- 様々な複雑さのテキスト分類タスクでの実験では、推論時の計算量(FLOPs)とメモリ使用量が削減され、かつフルなマルチヘッド・アテンションを上回る(または同等の)性能が示されています。
- 著者らは、適応的なヘッド割当がTransformerの効率と有効性の両方を改善するための筋の良いアプローチになり得ると結論づけています。



