要旨: トランスフォーマー系の現代的なニューラルネットワークでは、学習を始める前に、使用する注意(attention)ヘッド数、ネットワークの深さ、各コンポーネントの幅を決める必要があります。これらの判断はタスクの知識なしに行われるため、必要以上に系統的に大きいアーキテクチャが生成されます。実証研究では、訓練後に性能を損なうことなく、かなりの割合のヘッドや層を削除できることが分かっています。
本論文では、学習中に自身の構造を決定するアーキテクチャであるDDCL-INCRTを提案します。2つの補完的なアイデアを組み合わせています。1つ目のDDCL(Deep Dual Competitive Learning)では、フィードフォワードブロックを、データ内で最も情報量の多い方向を表す学習済みプロトタイプベクトルの辞書で置き換えます。プロトタイプは、明示的な正則化なしに、学習目的によって駆動され自動的に互いに離れていきます。2つ目のINCRT(Incremental Transformer)では、ヘッド数を制御します。既存のヘッドでは捉えきれていない方向情報が閾値を超えたときにのみ、新しいヘッドを追加します。初期状態から1つのヘッドで始めます。
主な理論的発見は、これら2つのメカニズムが互いに強め合うことです。つまり、新しいヘッドはプロトタイプの分離を増幅し、その結果として次の追加を引き起こす信号が高まります。収束時には、ネットワークは表現の粒度に基づくヘッドの階層へと自己組織化します。この階層構造は、(述べられた条件のもとで)タスクを満たすのに十分な最小のアーキテクチャであり、一意であることが証明されます。安定性、収束、そしてプルーニング(剪定)の安全性に関する形式的保証は、全過程で確立されています。
このアーキテクチャは、誰かが設計するものではありません。導き出されるものです。
DDCL-INCRT: 階層的プロトタイプ構造を備えた自己組織化トランスフォーマ(理論的基礎)
arXiv cs.LG / 2026/4/3
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、一般的なトランスフォーマ実装者が、(注意ヘッド数、層の深さ、幅など)モデルのアーキテクチャ規模を事前に選択せざるを得ないことが多く、その結果として、体系的に過大なモデルになりがちであり、学習後に性能を損なうことなく剪定できる場合があると主張する。
- 学習中に自身の構造を学習する自己組織化トランスフォーマであるDDCL-INCRTを提案し、その構成として、FFNブロック向けのプロトタイプベースの深い二重競合学習であるDDCLと、漸進的ヘッド成長であるINCRTを組み合わせる。
- DDCLは、学習されたプロトタイプベクトルの辞書を用い、訓練目標に応じてそれらが自動的に広がることを特徴とする。一方でINCRTは、まず1つの注意ヘッドから開始し、未カバーの方向情報が閾値を超える場合にのみ新しいヘッドを追加する。
- 理論結果により、プロトタイプ分離と漸進的なヘッド追加が互いに補強し合い、表現の粒度に基づくヘッドの階層が形成されることが示される。さらに、所定の仮定の下で、そのタスクに十分な、証明された一意かつ最小のアーキテクチャが得られることが示される。
- 著者らは、安定性、収束、剪定の安全性に関する形式的な保証を提示し、手作業によるアーキテクチャ設計を、訓練から導出されるアプローチに置き換えることを目指している。




