要旨: トランスフォーマー・アーキテクチャは試行錯誤によって設計されます。注意ヘッド数、深さ、ヘッドサイズは、学習を開始する前に固定され、選択を導く数学的原理はありません。その結果として生じるのは、体系的な構造的冗長性です。学習済みモデルにあるすべてのヘッドのうち、およそ半分から4分の5までを、測定可能な損失なしに削除できることがあります。これは、アーキテクチャがタスクの実際の要求を参照することなく計算資源を割り当てるためです。本論文では、INCRT(Incremental Transformer)という、学習中に自身の構造を決定するアーキテクチャを提案します。単一のヘッドから出発して、INCRTは、現在の構成が証明可能に不十分である場合に、必要に応じて注意ヘッドを1つずつ逐次追加し、冗長になったヘッドを剪定します。成長の判断はすべて、タスクの方向性構造から導かれる単一の、オンラインで計算可能な幾何学的量によって駆動されます。このため、別個の検証フェーズは不要で、手作業で調整したスケジュールも不要です。
理論的な基盤として、2つの定理が提示されます。第1の(恒常性的収束)定理は、システムが常に有限の停止構成に到達することを保証し、その停止構成は同時に最小(冗長なヘッドがない)であり十分(閾値を超える未回収の方向性エネルギーがない)であることを示します。第2の(圧縮センシングの類推)定理は、この構成に含まれうるヘッド数に対して、タスクのスペクトル的複雑性の関数として幾何学的な上界を与えます。
実験として、SARS-CoV-2の変異体分類およびSST-2のセンチメント分析を行い、両方の結果を確認します。予測されたヘッド数と観測されたヘッド数は、すべてのベンチマークで12%以内で一致し、最終的なアーキテクチャは、事前学習なしで、分布固有のタスクにおいてBERT-baseと同等、またはそれを上回ります。さらに、パラメータ数は3〜7分の1に抑えられます。
INCRT:自身のアーキテクチャを決定する増分型トランスフォーマー
arXiv cs.LG / 2026/4/14
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、学習の前に固定されたトランスフォーマー構造を用いる代わりに、学習中に注意(attention)ヘッドを段階的に追加・剪定(prune)するINCRT(Incremental Transformer)を提案する。
- INCRTは1つのヘッドから開始し、現在の構造が理論的に十分でないことが示される場合にのみモデルを拡大する。一方で、オンラインで計算可能な幾何学的メトリクスに基づいて冗長であると示されたヘッドは剪定する。
- 2つの理論的結果として、有限の最小かつ十分な停止構成へのホメオスタティック(恒常性)収束、ならびに最終ヘッド数とタスクのスペクトル的複雑さの関係を結ぶ圧縮センシングに着想を得た上界が提示される。
- SARS-CoV-2の変異体分類およびSST-2の感情分析に関する実験では、ヘッド数の予測が観測された数と約12%の範囲で一致し、得られたアーキテクチャは、必要なパラメータ数を(3〜7)×削減しつつ、事前学習(pre-training)を回避しながら、タスク固有ベンチマークにおいてBERT-baseと同等以上の性能を示す。




