On Token's Dilemma: 大規模ビジョン言語モデルの継続学習のための、ドリフトを意識したトークン割当によるダイナミックMoE

arXiv cs.LG / 2026/3/31

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、大規模ビジョン言語モデルに対するMoEベースのマルチモーダル継続指導チューニングが過去の知識をなお忘れてしまう理由を調査し、その根本課題を「routing-drift（ルーティングのドリフト）」、すなわち旧タスクのトークンが新たに追加されたエキスパートへ誤ってルーティングされてしまう現象にあると位置づける。
「token’s dilemma（トークンのジレンマ）」と呼ばれるトークンレベルの失敗モードを特定する。すなわち、新タスクデータ中の曖昧なトークン、あるいは旧トークンは学習上の利益が小さい一方で、学習中にルーティング割当が不安定になり、忘却を引き起こし得る。
これに対処するため、著者らはLLaVA-DyMoEを提案する。これは、エキスパートを段階的に拡張するダイナミックMoEフレームワークであり、ドリフトを意識したトークンレベルの割当ガイダンスと、ルーティングスコアの正則化によって、エキスパート・グループ間の分離性を保つ。
継続指導チューニングに関する実験により、本手法は忘却を（約12%の低減として報告される）抑え、ベースライン手法に比べて最終的な平均精度を7%以上向上させることが示されている。
本研究はDyMoEリソースにアクセスするためのオンラインプロジェクトページを併設している。

Abstract

マルチモーダル継続的インストラクション・チューニング（Multimodal Continual Instruction Tuning）は、新しいデータから学習しつつ、過去に獲得した知識を忘れないことで、Large Vision Language Models（LVLMs）を継続的に高性能化することを目的とします。Mixture of Experts（MoE）アーキテクチャは、既存のエキスパートを凍結したまま、エキスパートを段階的に追加し、ルータを拡張することで自然にこれを可能にします。しかし、エキスパートが隔離されているにもかかわらず、MoEベースの継続学習者はルーティング・ドリフト（routing-drift）によって忘却を依然として起こしてしまいます。具体的には、古いタスクのトークンが新たに追加されたエキスパートへ誤って引き寄せられ、過去タスクでの性能が劣化します。我々は失敗モードをトークン単位で解析し、トークンのジレンマを明らかにします。すなわち、新タスクデータ中の曖昧なトークンと古いトークンは、学習上の利益がほとんどない一方で、新しいエキスパートへルーティングされることで忘却を誘発します。これは、学習中のルーティング割り当てが曖昧であるためです。これに動機づけられ、我々はLLaVA-DyMoEを提案します。これは、ドリフトを意識したトークン割り当てによってMoEを動的に拡張し、段階的に学習を行うためのダイナミックMoEフレームワークです。トークンの種類を、そのルーティングスコア分布によって特徴づけ、狙いを定めた正則化を適用します。具体的には、トークン単位の割り当て誘導により、曖昧なトークンおよび古いトークンを新しいエキスパートから遠ざけて、確立されたルーティングのパターンを維持し、ルーティング・ドリフトによる忘却を緩和します。さらに補完的なルーティングスコア正則化によってエキスパート群の分離を強制し、新しいエキスパートの専門化を促します。大規模な実験により、我々のLLaVA-DyMoEはルーティング・ドリフトに起因する忘却を効果的に軽減し、ベースラインに比べて最終平均精度で7%以上の向上、忘却の12%削減を達成することを示します。プロジェクトページは https://zhaoc5.github.io/DyMoE です。