概要: 生物学的神経系は多様な神経伝達物質――グルタミン酸、GABA、ドーパミン、アセチルコリン――を用いて、共有された神経回路内で異なる信号処理モードを実現します。対照的に、現代のトランスフォーマーは全てのフィードフォワードニューロンに対して単一の固定活性化関数を適用します。我々はPolyGLU(Polychromatic Gated Linear Unit)を紹介します。SwiGLUのドロップイン置換で、各FFNニューロンが入力条件付きゲーティングと学習済みの静的嗜好を組み合わせた微分可能なメカニズムを介してK=4の活性化関数間を動的にルーティングできるようにします。これはGumbel-Softmaxを用いてエンドツーエンドで訓練されます。PolychromaticLM、597Mパラメータのトランスフォーマーを、約100億トークンを1つのNVIDIA A100 GPUで訓練します。私たちの主要な発見は出現的なルーティング挙動です:明示的なスパース性損失やエントロピー正則化を一切用いず、ルーティング機構はほぼ決定論的な活性化選択へ収束します(平均動的エントロピーは最大値の0.030%)。深さ依存の顕著な特化パターンがみられ、初期層はGELUを好む一方、深層はTanhを強く好みます。3層が高いルーティングエントロピーを維持しており、計算的柔軟性のポイントを示唆します。ルーティング構造はパラメータオーバーヘッドをわずか0.23%追加するのみで、監視付きファインチューニングに対して完全に堅牢であることを示します:13,067回のSFTステップを通じてルーティングエントロピーは ln(4) のままです。標準ベンチマークでは、PolychromaticLMは訓練トークン数が約3,600分の1にもかかわらず、Qwen3-0.6B-Baseの性能の62–89%を達成します。すべてのコード、ウェイト、訓練インフラはApache 2.0の下で公開されています。
PolyGLU: トランスフォーマーのフィードフォワードネットワークにおける状態条件付き活性化ルーティング
arXiv cs.LG / 2026/3/17
📰 ニュースModels & Research
要点
- PolyGLUはSwiGLUのドロップイン置換であり、各FFNニューロンが4つの活性化関数の間を動的にルーティングできる。これは学習済みの静的嗜好と入力条件付きゲーティングを組み合わせた微分可能なメカニズムを介しており、Gumbel-Softmaxでエンドツーエンド訓練される。
- 著者らはPolychromaticLMという597Mパラメータのトランスフォーマーを、約100億トークンを1つのNVIDIA A100で訓練し、パラメータのオーバーヘッドは約0.23%(約140万パラメータ)にとどまる。
- このルーティングは、ほぼ決定論的な活性化選択の出現と深さ依存の特化を示す(初期層はGELUを好み、深い層はTanhを好む)が、3つの層は高いルーティングエントロピーを維持し、機構は教師付きファインチューニング下でも安定している(エントロピーは13,067のSFTステップを通じてほぼln(4)のまま)。
- 標準ベンチマークにおいて、PolychromaticLMは Qwen3-0.6B-Baseのパフォーマンスの62〜89%を、約3,600倍少ないトークン数で訓練したにもかかわらず達成する。さらに、すべてのコード、重み、訓練インフラストラクチャはApache 2.0の下で公開されている。