サッカード・アテンション・ネットワーク:注意の転移学習でネットワークサイズを削減する

arXiv cs.CV / 2026/4/21

📰 ニュースDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research

要点

  • 本論文は「サッカード・アテンション・ネットワーク」を提案し、全シーケンスではなく、最も関連性の高い特徴だけを処理するために注目箇所を学習します。
  • 大規模な事前学習モデルからの転移学習を用いて、注目に基づく画像の前処理を行うネットワークを学習します。
  • 注目された主要特徴のみによって入力シーケンス長をスパースに削減することで、トランスフォーマーの注意計算に伴う二次的コストを緩和します。
  • 実験では、標準的なフルアテンションと比べて計算量を約80%近く削減し、同等の性能が得られると報告されています。

Abstract

トランスフォーマーネットワークの制約の1つは、注意行列が二次的であるためにシーケンス長が問題になることです。古典的な自己注意はシーケンス全体長を用いますが、実際に用いられている注意は疎(スパース)です。人間は、画像や場面を解析する際に、サッケード(saccades)と呼ばれる形式の疎注意を用います。重要な特徴に焦点を当てることで計算時間を大幅に削減できます。大規模な事前学習済みモデルから注意する場所を学習するためのネットワーク(Saccade Attention Network)を用いることで、画像の前処理にそれを利用でき、入力シーケンス長を、注意される主要な特徴だけにまで減らすことにより、ネットワークサイズを大幅に小さくできます。私たちの結果は、計算量を約80%まで削減し、同様の結果を得られることを示しています。