広告

QUEST:クエリで変調する球面注意による頑健な注意の定式化

arXiv cs.AI / 2026/4/2

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、標準的なTransformerの注意機構において、クエリ/キーのベクトルノルムが制御されずに増大することによって生じる学習の不安定性を分析し、その要因としてデータ内の紛れ込み(spurious)パターンが引き金になる可能性を示す。
  • 提案手法QUEST(Query-modulated Spherical Attention)は、キーを超球面の潜在空間に制約しつつ、各トークンが注意の鋭さ(sharpness)を変調できるようにする。
  • QUESTは標準的な注意機構のドロップイン置換として設計されており、周辺のTransformer構成要素を変更することなく安定性の向上を狙う。
  • 画像タスク(および追加の領域)に関する実験では、QUESTが不安定性なく学習でき、より高い性能を達成することが報告されており、データの破損や敵対的攻撃への頑健性も含まれる。

Abstract

トランスフォーマーモデルのアーキテクチャは、深層学習において最も広く利用されているものの一つとなっており、注意機構はその中核にあります。標準的な注意の定式化では、クエリベクトルとキー(鍵)ベクトルの間のスケーリングされた内積に対してソフトマックス演算を適用します。クエリとキーのノルム(長さ)が果たす役割に着目し、それらが任意に増大すると学習の不安定性を引き起こし得ることを示します。データ中に学習しやすい、紛らわしい(spurious)パターンが存在する場合には、単純なトランスフォーマーモデルにおいてでさえ、この現象がどのように起こり得るかを実証します。新しい注意の定式化として、QUEry-modulated Spherical aTtention(QUEST)を提案します。QUESTは、キーを超球面の潜在空間に制約しつつ、個々のトークンが注意分布の鋭さ(sharpness)を柔軟に制御できるようにします。QUESTは、標準的な注意のドロップイン置換として容易に利用できます。本稿では視覚アプリケーションに焦点を当てつつ、手法の一般性を際立たせるために他の領域も探索します。(1)QUESTは不安定性なしに学習でき、(2)性能が改善されたモデルを生成し、(3)データの破損や敵対的攻撃に対して頑健であることを示します。

広告
QUEST:クエリで変調する球面注意による頑健な注意の定式化 | AI Navigate