教師付きルーティングによるスパース・ビジョン・Mixture-of-Experts
arXiv cs.CV / 2026/4/24
📰 ニュースModels & Research
要点
- この論文は、Sparse Mixture-of-Experts(MoE)における重要な最適化課題、すなわちルータが前向き計算で選択されたエキスパート経由でしか学習信号を受け取れず、勾配の遮断やルーティング不安定性が起き得る点に焦点を当てています。
- 提案手法はTGR-MoE(Teacher-Guided Routing for Sparse Vision MoE)で、事前学習済みの密な教師モデルの中間表現から教師ルータを構成し、教師のルーティング出力を学生ルータへの擬似教師信号として用います。
- 教師主導の擬似ラベル付けにより学習中の頻繁なエキスパート割当ての変動を抑え、学習の初期段階から安定したルータ学習を可能にします。
- ImageNet-1KおよびCIFAR-100での実験により、TGR-MoEが精度とルーティング一貫性の両方を改善しつつ、極めてスパースな設定下でも安定した学習を維持できることが示されます。


