マンフォールドを考慮した適応的継続的モデル統合:エキスパート進化の提案

arXiv cs.LG / 2026/4/27

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • この論文は、継続的モデル統合(CMM)における限界を扱い、バックボーン中心手法の飽和と表現干渉、またMoE系の冗長性とルーティングのボトルネックを問題として挙げています。
  • MADE-IT(Manifold-Aware Dynamic Expert Evolution and Implicit rouTing)という適応的CMM手法を提案し、マンフォールド幾何に基づいてエキスパート表現を管理することで多様性とモデルのコンパクトさを両立しようとします。
  • 射影ベースの部分空間親和性指標と、分布に応じた適応的しきい値メカニズムを導入し、エキスパートの自律的な進化の判断基準を与えます。
  • パラメータ化されたゲーティングネットワークを回避するために、特徴量と部分空間の整合によりエキスパートを有効化するデータフリー/学習フリーの暗黙ルーティングも設計します。
  • 実験では、長期ホライズンやタスクがシャッフルされたシーケンスで精度と頑健性が向上し、特に汎用モジュールや初期層で冗長なエキスパートが大幅に削減されると報告されています。

Abstract

継続的モデル統合(CMM)は、集中的な再学習を行うことなく、タスク固有のモデルを順次統合して統一アーキテクチャに組み込む。しかし、既存のCMM手法は本質的な「飽和–冗長性」のジレンマによって制約されている。バックボーン中心のアプローチは、固定された容量のもとでパラメータが飽和し、表現が干渉する。一方、Mixture-of-Experts(MoE)系の手法は無差別な拡張に頼り、エキスパートの冗長性と、追加のデータ駆動による最適化に依存するルーティングのボトルネックを招く。これらの課題を解決するために、我々はMADE-IT(Manifold-Aware Dynamic Expert Evolution and Implicit rouTing)を提案する。これは、専門家管理と活性化を、内在的なエキスパート表現を多様体幾何に基づけることで統括する適応的CMM手法である。多様体に基づく投影ベースの部分空間類似度指標を導入するとともに、分布を考慮した適応的しきい値メカニズムを組み合わせ、自律的なエキスパート進化を導く。これにより、多様性とアーキテクチャの簡潔さ(パーシモニー)を調和させる。さらに、パラメータ化されたゲーティングネットワークを回避するために、特徴部分空間の整合によってエキスパートを活性化するデータ不要かつ学習不要の暗黙的ルーティング手法を設計する。大規模な実験の結果、MADE-ITは長期ホライゾンおよびタスクがシャッフルされたシーケンスにおいて、精度と頑健性の両面で強力なベースラインを一貫して上回り、特に汎用モジュールや初期層において冗長なエキスパートを大幅に削減することが示された。