時間的に拡張されたミクスチャ・オブ・エキスパート（MoE）モデル

arXiv cs.LG / 2026/4/23

📰 ニュースDeveloper Stack & InfrastructureModels & Research

共有:

要点

ミクスチャ・オブ・エキスパート（MoE）モデルは、容量を推論速度を固定したままスケールするために、ほぼ各トークンでエキスパート集合を切り替えますが、モデルがGPUメモリ容量を超えるとオフロードやプリフェッチといった最適化が効きにくくなることがあります。
本論文は、強化学習の「オプション（options）フレームワーク」を用いて、エキスパートの切り替え時期やロードすべき集合を判断する“時間的に拡張された（temporally extended）MoEレイヤー”を提案します。
option-criticに基づき、各レイヤーに指示（コントローラ）を追加し、熟慮コストを導入することで、切り替え頻度を下げることと性能を保つことのトレードオフを明示的に調整できるようにします。
GPT-OSS-20Bに低ランク・アダプタを適用し、自己蒸留報酬で学習した結果、切り替え率を50%超から5%未満へ大幅に低減しつつ、MATH・MMLU・MMMLUでベースモデルの最大90%の精度を維持します。
著者らは、この方法が軽量な追加学習で既存の事前学習済みモデルを時間的に拡張されたMoEへ変換でき、増え続けるMoEモデルに対するメモリ効率の高い提供や継続学習への原理的な道を開くと述べています。