動的計算割り当てとロードバランシングを備えた自己回帰言語モデリングのエキスパート閾値ルーティング

arXiv cs.AI / 2026/3/13

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論は、自己回帰言語モデルにおけるトークン選択型Mixture-of-Experts（TC-MoE）に対するエキスパート閾値（ET）ルーティングを提案し、補助的なロードバランス損失を用いずに動的な計算割り当てを可能にします。
各エキスパートは、グローバルなトークン分布から推定された指数移動平均（EMA）閾値を維持し、トークンのスコアが閾値を超えた場合にそのエキスパートへ割り当てられます。
このルーティングは完全に因果的かつトークン単位であり、バッチ内の他のトークンへの依存を必要とせず、訓練時と推論時の双方で機能します。
FineWeb-Edu 上の 2.4B パラメータモデルの事前学習実験では、ET は TC-MoE よりクロスエントロピーを 0.067低く、同等の性能を約1.6分の1 のトークン数で達成します。

概要: Token-choice Mixture-of-Experts (TC-MoE) は、各トークンを固定数のエキスパートへ割り当て、動的計算割り当てを制限し、ロードバランスを維持するための補助損失を必要とします。我々は Expert Threshold (ET) ルーティングを提案します。ここでは各エキスパートがグローバルなトークン分布から推定された指数移動平均（EMA）閾値を維持します。訓練時・推論時のいずれにおいても、各トークンはそのスコアがエキスパートの閾値を超えた場合に独立してエキスパートへ割り当てられ、補助損失を用いずに動的な計算割り当てとロードバランスを実現します。この完全な因果機構はバッチ内の他のトークンへの依存を排除し、自己回帰言語モデリングに適しています。FineWeb-Edu 上で 2.4B パラメータへスケールした事前学習実験では、ET は TC-MoE より 0.067 クロスエントロピーを低く抑え、同等の性能をトークン数を約1.6分の1に削減して達成します。

Day 10: 230回の奮闘セッション、結局は一人の人間が文書を読むことに尽きる

Dev.to

本番環境で壊れる、バイラルなAIコーディングデモの背後に潜む5つの危険な嘘

Dev.to

二つのボット、混乱したサーバー: NimbusがAIエージェントのアイデンティティについて明らかにしたこと

Dev.to

OpenTelemetryがLLMトレーシングを標準化しました。コード上では実際にはこのようになっています。

Dev.to

PIXIU: 金融分野向けの大規模言語モデル、指示データ、および評価ベンチマーク

Dev.to

動的計算割り当てとロードバランシングを備えた自己回帰言語モデリングのエキスパート閾値ルーティング

要点

関連記事

Day 10: 230回の奮闘セッション、結局は一人の人間が文書を読むことに尽きる

本番環境で壊れる、バイラルなAIコーディングデモの背後に潜む5つの危険な嘘

二つのボット、混乱したサーバー: NimbusがAIエージェントのアイデンティティについて明らかにしたこと

OpenTelemetryがLLMトレーシングを標準化しました。コード上では実際にはこのようになっています。

PIXIU: 金融分野向けの大規模言語モデル、指示データ、および評価ベンチマーク

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer