AI Navigate

Pyramid MoA: 費用を最適化した随時推論の確率的フレームワーク

arXiv cs.CL / 2026/3/16

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • Pyramid MoA は、費用と精度のバランスを取るために必要なときのみクエリをエスカレーションする意思決定理論に基づくルータを備えた階層的な Mixture-of-Agents アーキテクチャを導入します。
  • 確率的随時性の性質を形式化し、特定のルータ精度条件の下で、計算深度が深くなるほど期待解の品質が非減少であることを証明します。
  • 計算価値理論に基づくエスカレーション規則を導出し、不完全なオラクルを扱えるようにするとともに、Hansen と Zilberstein のモニタリングフレームワークを確率的な LLM 推論へ拡張します。
  • 実証的結果は、ルータが MBPP におけるバグの 81.6% を検出・捕捉し、GSM8K/MMLU では Oracle ベースラインと同等の性能を、最大で 18.4% の計算節約とともに実現し、HumanEval では高い精度と大幅なコスト削減を達成しつつ MATH 500 で Oracle の上限を維持します。
  • このフレームワークは、低エントロピーのタスクには積極的なコスト削減を実現するエージェントとして、また高エントロピーのタスクには安全網として動的に機能します。

要約: 大規模言語モデル(LLMs)は推論コストと推論能力の間で持続的なトレードオフに直面しています。『Oracle』モデル(例: Llama-3.3-70B)は最先端の精度を達成しますが、大量展開には費用が高すぎます。小規模なモデル(例: 7-9B パラメータ)はコスト効率は高いものの、複雑なタスクには苦戦します。私たちは、LLM のカスケードとルーティングの新たな実践が、暗黙のうちに anytime 計算問題を解決することを観察します――古典的 AI で広く研究されているアルゴリズムの一群で、追加の計算が割り当てられるとすぐに有効な解を出し、それを改善していきます。本研究ではこの結びつきを形式化し、意思決定理論に基づくルータが必要に応じてのみクエリを動的にエスカレーションする階層的 Mixture-of-Agents アーキテクチャ「Pyramid MoA」を提案します。確率的 Anytime 特性を確立し、推定可能な条件の下で、計算深度が深くなるにつれて期待解の品質が単調非減少することを証明します。不完全なオラクルを考慮した一般化エスカレーション規則を、Value of Computation 理論から導出し、Hansen および Zilberstein の古典的なモニタリング枠組みを確率的な LLM 推論へ拡張します。MBPP コード生成ベンチマークでは、Consensus Router がバグの81.6%を検出します。GSM8K/MMLU の数学的推論ベンチマークでは、システムは Oracle の基準である68.1%の精度に対し同等を達成し、バランスの取れた運用点で最大18.4%の計算コスト削減を可能にします。重要なのは、ルータが未見のベンチマークへゼロショットで移行する点です:HumanEval では Oracle に匹敵する81.1%の精度を経済モードで62.7%のコスト削減とともに達成し、非常に複雑な MATH 500 ベンチマークでは 58.0% の Oracle 上限を維持します。このフレームワークは動的に機能します:低エントロピーなタスクには積極的なコスト削減手段として、そして高エントロピーなタスクには厳格なセーフティネットとして機能します。