条件付き深さルーティングにおける補助損失の再検討:実証研究
arXiv cs.LG / 2026/4/21
📰 ニュースDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research
要点
- この論文は、軽量なFFN(cheap)と通常のFFN(full)をトークンごとに切り替える条件付き深さルーティングの学習安定化において、補助損失がどのように効くかを検討しています。
- 157.5Mパラメータのデコーダのみモデルで(コントローラのみ学習、fullパス予算50%、3シード)、ゲート設計の2案(G1:MLPのユーティリティスコア、G3:JEPAガイドの行動条件付き予測)を比較し、標準レシピ(util/rank補助損失)下ではG3が3/3回の試行で初期〜中盤の最適化を改善すると報告されています。
- アブレーションでは、util/rank補助監督を除去すると両ゲートで最良/平均のLMと閾値到達速度が改善し、G3のG1に対する初期〜中盤の優位性も消えることが示されています。
- その原因として、util/rankのオラクルラベルが「以降の層はすべてfullを実行する」と仮定するオフポリシー性を持つ一方、実際のゲート実行では一部トークンしかfullパスに流れないため、現行レシピではutil/rankが負の効果を持つ点が挙げられています。
- util/rankを外すことで学習FLOPsの代理指標も(約1.53×から1.07×へ)低下し、検証された範囲では計算効率の実利も示唆されています。




