Vision Transformerのフィードフォワードネットワークに対する直交二次補完(Orthogonal Quadratic Complements)

arXiv cs.CV / 2026/4/14

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、低ランクの二次補助ブランチを追加しつつ、それを主ブランチの直交補空間へ明示的に射影することで冗長な情報を避ける、新しいVision Transformer向けフィードフォワード設計であるOrthogonal Quadratic Complements(OQC)を提案する。
  • 効率的な派生として、OQC-LR(低ランク実現)およびゲート拡張(OQC-static、OQC-dynamic)を検討し、強力な二次相互作用の利点と、冗長性/容量増大による弊害とを切り分けることを目指す。
  • パラメータを一致させたDeep-ViTおよびCIFAR-100の設定において、完全なOQCはAFBOベースラインを64.25±0.22から65.59±0.22へ改善し、OQC-LRはより良い速度–精度のトレードオフを伴って65.52±0.25を達成する。
  • TinyImageNetでは、ゲート付きOQC-dynamicが51.88±0.32を記録し、ベースライン(50.45±0.21)を1.43ポイント上回り、ゲートなしの代替案よりも優れている。
  • 機構的分析により、射影後の補助表現と主表現の重なりがほぼゼロであることに加えて、表現幾何の改善およびクラス分離の向上が示され、両データセットで一貫した汎化が確認される。

Abstract

視覚トランスフォーマーに対する最近の双線形フィードフォワード置換は、精度を大幅に向上させることができますが、多くの場合、2つの効果を混同しています。すなわち、より強い2次相互作用と、主分岐に対する冗長性の増大です。私たちは補完的な設計原理を研究します。それは、補助的な2次特徴が、支配的な隠れ表現によってすでに捉えられている情報を含まない情報のみを寄与する、というものです。この目的のために、Orthogonal Quadratic Complements(OQC)を提案します。OQCは、低ランクの2次補助分岐を構成し、注入する前にそれを主分岐の直交補空間へ明示的に射影します。さらに、効率的な低ランク実現(OQC-LR)と、ゲーティング拡張(OQC-static および OQC-dynamic)についても研究します。 パラメータを一致させた Deep-ViT および CIFAR-100 のプロトコル(中間直前の残差リードアウトを固定)において、完全な OQC は AFBO のベースラインを 64.25 +/- 0.22 から 65.59 +/- 0.22 に改善します。一方で OQC-LR は 65.52 +/- 0.25 を達成し、速度と精度のトレードオフが実質的により良好です。TinyImageNet では、ゲーティング拡張である OQC-dynamic が 51.88 +/- 0.32 を実現し、ベースライン(50.45 +/- 0.21)を 1.43 ポイント改善、さらにゲーティングなしのあらゆるバリアントを上回ります。メカニズム解析では、射影後の補助−主の重なりがほぼゼロであることに加え、表現の幾何構造とクラス分離の改善が示されます。ゲーティングなしおよびゲーティングありの両方を含む完全なファミリーは、両データセットに対して一貫して汎化します。