「アフィニティだけでは不十分」:Mixture-of-Expertsにおけるフリー・エネルギー原理の回復

arXiv cs.LG / 2026/5/4

📰 ニュースIdeas & Deep AnalysisTools & Practical UsageModels & Research

要点

  • 本論文は、疎なMixture-of-Experts(MoE)の標準的なアフィニティ・ルーティングがドメイン遷移で破綻する理由を、「遷移前のトークンは同一ドメイン内のトークンと統計的に区別できない」ためゲートが早期警告を得られない点にあると主張している。
  • 制御実験(4エキスパート)では、標準ルーティングの遷移時における正しいエキスパートへの割当確率が約0.006にとどまる一方で、βの時間的メモリ、精度重み付きゲーティング(Pi)、予測的ルーティングという3つの軽量なゲート改良により、正解エキスパート確率は約0.748まで大幅に改善し(約124倍)、99%カバレッジに必要なエキスパート数も「実行不能」から「小さな定数」へと減る。
  • 著者らは、これらのルーティング機構をフリストンのフリー・エネルギー原理に結び付け、スパイキングニューラルネットワーク由来のLIF(リーク統合発火)ダイナミクスでルーティングに関わる文脈をトークン間で蓄積する実装を示している。
  • アブレーション(全2^3サブセット)では、βとanticipation(予測)の組合せが個別の寄与の和を上回る「超加法的」効果を示し、両者でオラクル・ギャップの約75%を埋める一方、anticipation単独ではほぼ効果がないことがわかる。
  • 文字レベルのMoE言語モデルでは、βルーティングにより遷移ステップBPCが約6.56から約4.01へ低下し、さらにβ+anticipationでは新ドメインが入力に現れる前から正しいドメイン・エキスパートへの確率が0.86(標準MoEの0.42より高い)に上がる。