Vision Transformerのフィードフォワードネットワークに対する直交二次補完(Orthogonal Quadratic Complements)
arXiv cs.CV / 2026/4/14
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、低ランクの二次補助ブランチを追加しつつ、それを主ブランチの直交補空間へ明示的に射影することで冗長な情報を避ける、新しいVision Transformer向けフィードフォワード設計であるOrthogonal Quadratic Complements(OQC)を提案する。
- 効率的な派生として、OQC-LR(低ランク実現)およびゲート拡張(OQC-static、OQC-dynamic)を検討し、強力な二次相互作用の利点と、冗長性/容量増大による弊害とを切り分けることを目指す。
- パラメータを一致させたDeep-ViTおよびCIFAR-100の設定において、完全なOQCはAFBOベースラインを64.25±0.22から65.59±0.22へ改善し、OQC-LRはより良い速度–精度のトレードオフを伴って65.52±0.25を達成する。
- TinyImageNetでは、ゲート付きOQC-dynamicが51.88±0.32を記録し、ベースライン(50.45±0.21)を1.43ポイント上回り、ゲートなしの代替案よりも優れている。
- 機構的分析により、射影後の補助表現と主表現の重なりがほぼゼロであることに加えて、表現幾何の改善およびクラス分離の向上が示され、両データセットで一貫した汎化が確認される。




