ミクスチャモデルの観点から見直すLLMエンsembling

arXiv cs.LG / 2026/5/4

📰 ニュースDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、従来のLLMエンsemblingが、複数モデルの出力分布を明示的に計算するために各モデルで個別のフォワードパスを行う必要があり計算効率が悪いと指摘しています。
  • 著者らは、エンsemblingをミクスチャモデルとして解釈し、トークン生成の各ステップで確率的に1つのモデルを選んで出力するMixture-model-like Ensemble(ME)を提案します。
  • MEは、完全なエンsemble分布からサンプリングすることと数学的に同等である一方、各ステップで1モデルだけを呼び出せばよいため、1.78倍〜2.68倍の高速化が報告されています。
  • この視点により、LLMエンsemblingとトークンレベルのルーティング手法が結びつけられ、エンsemblingがルーティングの特殊なケースとして捉えられる可能性が示されています。
  • 著者らはコードを公開しており、効率的なトークンレベルルーティング戦略のさらなる探究につながる出発点になると述べています。

要旨: モデルアンサンブリングは、機械学習モデルの性能を向上させるための確立された手法です。従来は、複数のモデルの出力分布を平均し、最も確からしいラベルを選択することによって行われます。この発想は自然に大規模言語モデル(LLM)にも拡張され、その結果として性能が向上する一方で、計算コストが大幅に増大します。この非効率性の原因は、従来のアンサンブル実装をLLMにそのまま適用してしまう点にあります。LLMでは、アンサンブル分布を明示的に計算するために、各モデルごとに別々の順伝播(forward pass)が必要になります。本論文では、Mixture-model-like Ensemble(ME)を提案します。アンサンブルを混合モデルとして再解釈することで、MEは各ステップで確率的に単一のモデルを選択して次トークンを生成し、アンサンブル分布全体を明示的に計算する必要を回避します。MEは数学的にはアンサンブル分布からのサンプリングと同等ですが、呼び出すモデルは1つだけで済むため、従来のアンサンブルよりも1.78倍〜2.68倍高速です。さらに、この観点は、LLMアンサンブリングとトークンレベルのルーティング手法を結び付け、LLMアンサンブリングがルーティング手法の特殊なケースであることを示唆します。本研究の発見は、効率的なLLMアンサンブリングに向けた新たな道を開き、LLMに対するトークンレベルのルーティング戦略のさらなる探究を動機づけます。コードは https://github.com/jialefu/Mixture-model-like-Ensemble/ で公開しています。