「アフィニティだけでは不十分」：Mixture-of-Expertsにおけるフリー・エネルギー原理の回復

arXiv cs.LG / 2026/5/4

📰 ニュースIdeas & Deep AnalysisTools & Practical UsageModels & Research

原文を読む →

共有:

要点

本論文は、疎なMixture-of-Experts（MoE）の標準的なアフィニティ・ルーティングがドメイン遷移で破綻する理由を、「遷移前のトークンは同一ドメイン内のトークンと統計的に区別できない」ためゲートが早期警告を得られない点にあると主張している。
制御実験（4エキスパート）では、標準ルーティングの遷移時における正しいエキスパートへの割当確率が約0.006にとどまる一方で、βの時間的メモリ、精度重み付きゲーティング（Pi）、予測的ルーティングという3つの軽量なゲート改良により、正解エキスパート確率は約0.748まで大幅に改善し（約124倍）、99%カバレッジに必要なエキスパート数も「実行不能」から「小さな定数」へと減る。
著者らは、これらのルーティング機構をフリストンのフリー・エネルギー原理に結び付け、スパイキングニューラルネットワーク由来のLIF（リーク統合発火）ダイナミクスでルーティングに関わる文脈をトークン間で蓄積する実装を示している。
アブレーション（全2^3サブセット）では、βとanticipation（予測）の組合せが個別の寄与の和を上回る「超加法的」効果を示し、両者でオラクル・ギャップの約75%を埋める一方、anticipation単独ではほぼ効果がないことがわかる。
文字レベルのMoE言語モデルでは、βルーティングにより遷移ステップBPCが約6.56から約4.01へ低下し、さらにβ＋anticipationでは新ドメインが入力に現れる前から正しいドメイン・エキスパートへの確率が0.86（標準MoEの0.42より高い）に上がる。