On Token's Dilemma: 大規模ビジョン言語モデルの継続学習のための、ドリフトを意識したトークン割当によるダイナミックMoE
arXiv cs.LG / 2026/3/31
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、大規模ビジョン言語モデルに対するMoEベースのマルチモーダル継続指導チューニングが過去の知識をなお忘れてしまう理由を調査し、その根本課題を「routing-drift(ルーティングのドリフト)」、すなわち旧タスクのトークンが新たに追加されたエキスパートへ誤ってルーティングされてしまう現象にあると位置づける。
- 「token’s dilemma(トークンのジレンマ)」と呼ばれるトークンレベルの失敗モードを特定する。すなわち、新タスクデータ中の曖昧なトークン、あるいは旧トークンは学習上の利益が小さい一方で、学習中にルーティング割当が不安定になり、忘却を引き起こし得る。
- これに対処するため、著者らはLLaVA-DyMoEを提案する。これは、エキスパートを段階的に拡張するダイナミックMoEフレームワークであり、ドリフトを意識したトークンレベルの割当ガイダンスと、ルーティングスコアの正則化によって、エキスパート・グループ間の分離性を保つ。
- 継続指導チューニングに関する実験により、本手法は忘却を(約12%の低減として報告される)抑え、ベースライン手法に比べて最終的な平均精度を7%以上向上させることが示されている。
- 本研究はDyMoEリソースにアクセスするためのオンラインプロジェクトページを併設している。



