Mixture-of-Experts Flow Matching による高速な言語モデル推論への道

arXiv cs.AI / 2026/4/17

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • この論文は、異方性や多峰性といった複雑な潜在分布を持つ状況で、フローマッチングを言語モデルへ適用した際の基本的な制約を克服するために、Mixture-of-Experts Flow Matching(MoE-FM)を提案します。
  • MoE-FMに基づき、ノンオートレグレッシブ(NAR)言語モデリング手法「YAN」を提案し、TransformerとMambaの両方のアーキテクチャで実装しています。
  • 複数の下流タスクで、YANは自己回帰(AR)モデルや拡散ベースのNAR言語モデルと同等の生成品質を達成し、サンプリングステップは最大でも3ステップ程度と報告されています。
  • さらに、自己回帰ベースラインに対して最大約40倍、拡散ベースの言語モデルに対して最大約10^3倍の速度向上が示され、推論効率の大きな利点が強調されています。
  • 全体として、本研究はMoE-FMとNARデコーディングの組み合わせが、品質を落とさずに生成推論を高速化する実用的な道筋になり得ることを示しています。

要旨: フローマッチングは、拡散モデルの生成品質を維持しながら、推論を大幅に高速化できるため、生成モデリングにおける有力なパラダイムである。しかし、それを言語モデリングに適用すると、異方性や多峰性のような不規則な幾何を持つ複雑な潜在分布を表現するうえで、根本的な制約が見られる。これらの課題に対処するために、局所的に専門化されたベクトル場へと分解することで、潜在空間における複雑な大域的輸送の幾何を捉える、混合専門家フローマッチング(MoE-FM)フレームワークを提案する。MoE-FMに基づき、TransformerおよびMambaアーキテクチャの両方で実装した、非自己回帰型(NAR)の言語モデリング手法、YANを開発する。複数の下流タスクにおいて、YANは生成品質の点で、自己回帰(AR)および拡散ベースのNAR言語モデルの双方と同等の性能を達成し、必要なサンプリングステップ数は最大でも3ステップまでに抑えられる。これにより、ARベースラインに対して40\timesの高速化を実現し、さらに拡散言語モデルに対して最大10^3\timesの高速化を達成するなど、言語モデリングにおいて大幅な効率上の優位性を示す。