クラスタ対応のアップサイクリングによりMixture-of-Experts（MoE）の専門性を強化する

arXiv cs.CV / 2026/4/16

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

原文を読む →

共有:

要点

本論文は、Mixture-of-Experts（MoE）モデルにおけるSparse Upcyclingの限界に着目している。具体的には、同一のエキスパート初期重みとランダムに初期化されたルータにより、エキスパート間の対称性が生まれ、初期段階での専門性が弱くなるという問題である。
密なモデルの入力アクティベーションを意味的にクラスタリングし、各クラスタのサブスペースから切り詰めSVDによって各エキスパートを初期化することで、クラスタ対応のアップサイクリング（Cluster-aware Upcycling）を提案する。さらにルータ重みはクラスタ重心を用いて初期化する。
学習の安定性とルーティング品質を高めるため、著者らはアンサンブル・ティーチャーを用いて信頼できるルーティングの指針を与える、エキスパート・アンサンブル自己蒸留（self-distillation）損失を追加する。
CLIPのViT-B/32およびViT-B/16に関する実験では、ゼロショットおよび少数ショットのベンチマークの両方で、先行手法に対する一貫した改善が示される。加えて、より多様で、かつ分離されたエキスパート表現が得られる。
このアプローチは、エキスパート間の類似度を低減し、より確信のあるルーティング挙動をもたらすことが報告されており、学習の初期段階から専門化されたエキスパートをより適切に活用できることを示唆している。

Black Hat Asia

AI Business

IT企業のNTTデータが建物改修に3Dプリンター、建設費削減で挑戦

日経XTECH

チューリング、E2E自動運転で公道走行 VLAでは「国内初」

日経XTECH

日産社長「V6のHEVは内製」「N7には驚いた」、長期戦略で一問一答

日経XTECH

チューリング、E2E自動運転で公道走行 VLAでは「国内初」

日経XTECH

クラスタ対応のアップサイクリングによりMixture-of-Experts（MoE）の専門性を強化する

要点

関連記事

Black Hat Asia

IT企業のNTTデータが建物改修に3Dプリンター、建設費削減で挑戦

チューリング、E2E自動運転で公道走行 VLAでは「国内初」

日産社長「V6のHEVは内製」「N7には驚いた」、長期戦略で一問一答

チューリング、E2E自動運転で公道走行 VLAでは「国内初」

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer