Expert-Choice Routing による拡散言語モデルでの適応的計算

arXiv cs.LG / 2026/4/3

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、拡散言語モデル（DLM）の混合専門家（MoE）では、トークン・チョイス（TC）ルーティングではなく、エキスパート・チョイス（EC）ルーティングを用いるべきだと主張する。TCは負荷の不均衡や計算資源配分の柔軟性の欠如を引き起こし得るためである。
ECルーティングは設計上、決定的な負荷分散をもたらすことで、高いスループットと、同等の設定下でTCと比べた実験におけるより速い収束を実現すると提示されている。
著者らは、ECルーティングのためにタイムステップ依存の専門家キャパシティを導入する。これにより、デノイジングの各ステップ間で専門家資源を再配分し、FLOPsが一致する条件の下で、低マスク率ステップにより多くのキャパシティを割り当てると性能が向上することを見出す。
さらに、低マスク率の状況では学習効率が有意に高いという機構的な根拠を与えている。そのため、計算資源をそこに集中させることが最大の限界利益につながる。
本研究は、事前学習済みのTCベースDLMを、ルータのみを差し替えることでECにレトロフィットでき、複数の下流タスクにおいて収束速度と精度の両方が改善されること、またコードを公開していることも示している。