教師付きルーティングによるスパース・ビジョン・Mixture-of-Experts

arXiv cs.CV / 2026/4/24

📰 ニュースModels & Research

要点

  • この論文は、Sparse Mixture-of-Experts(MoE)における重要な最適化課題、すなわちルータが前向き計算で選択されたエキスパート経由でしか学習信号を受け取れず、勾配の遮断やルーティング不安定性が起き得る点に焦点を当てています。
  • 提案手法はTGR-MoE(Teacher-Guided Routing for Sparse Vision MoE)で、事前学習済みの密な教師モデルの中間表現から教師ルータを構成し、教師のルーティング出力を学生ルータへの擬似教師信号として用います。
  • 教師主導の擬似ラベル付けにより学習中の頻繁なエキスパート割当ての変動を抑え、学習の初期段階から安定したルータ学習を可能にします。
  • ImageNet-1KおよびCIFAR-100での実験により、TGR-MoEが精度とルーティング一貫性の両方を改善しつつ、極めてスパースな設定下でも安定した学習を維持できることが示されます。

Abstract

近年の深層学習の進展は、ますます大規模なモデルによって牽引されてきましたが、その結果として生じる計算コストが重要なボトルネックとなっています。Sparse Mixture of Experts(MoE)は、各入力に対して少数のエキスパートのみを有効化することで、高いスケーラビリティを推論速度を犠牲にすることなく実現し、効果的な解決策を提供します。しかし、スパースMoEの学習は、特徴的な最適化の難しさを示します。ルータは順伝播の際に選択されたエキスパートを通じてのみ有益な勾配を受け取るため、勾配の遮断が起こり、選択されなかった経路から得られる情報がほとんどありません。この限られ、強く局所化されたフィードバックでは、ルータが適切なエキスパート選択スコアを学習することが難しく、学習中にエキスパートの割り当てが揺れ動くなど、しばしば不安定なルーティング動態につながります。この問題に対処するために、我々はTGR-MoE:Sparse Vision Mixture-of-ExpertsのためのTeacher-Guided Routing(教師あり誘導ルーティング)を提案します。これは、事前学習済みの密な教師モデルから得られる教師信号にもとづいてルータ学習を安定化する、シンプルかつ効果的な手法です。TGR-MoEは、教師の中間表現から教師ルータを構築し、そのルーティング出力を生徒ルータに対する疑似教師信号として用います。これにより、学習中の頻繁なルーティングの変動が抑制され、学習の初期段階から知識に導かれたエキスパート選択が可能になります。ImageNet-1KおよびCIFAR-100に関する大規模な実験の結果、TGRは精度とルーティング整合性の両方を一貫して改善するだけでなく、極めてスパースな構成下でも学習を安定に維持できることが示されました。