概要: 大規模言語モデル(LLM)主導のマルチエージェントシステム(MAS)は、複雑な推論とツールの使用において高い能力を示しており、異種エージェントプールは品質とコストのトレードオフの領域をさらに広げている。
これらの進歩にもかかわらず、実世界での展開は高い推論コスト、遅延、そして透明性の制限によって制約されることが多く、スケーラブルで効率的なルーティングを妨げる。
既存のルーティング戦略は通常、費用のかかるLLMベースのセレクタや静的ポリシーに依存しており、動的な負荷と混在する意図の下で意味論に基づくルーティングの制御性を提供する能力が限定され、不安定な性能と資源の非効率的な利用を招くことが多い。
これらの制限に対処するため、我々はマルチエージェントシステム(MAS)用の効率的で解釈可能なルーティングフレームワーク AMRO-S を提案する。
AMRO-S は MAS のルーティングを意味条件付き経路選択問題としてモデル化し、三つの主要なメカニズムを通じてルーティング性能を向上させる:
第一に、意図推定には監督付き微調整(SFT)済みの小型言語モデルを活用し、各クエリに対して低オーバーヘッドな意味インターフェースを提供する;
第二に、ルーティングメモリをタスク別のフェロモン専門家に分解し、タスク間の干渉を低減し、混在ワークロード下で経路選択を最適化する;
最後に、推論と学習をデカップリングする品質ゲート付き非同期更新機構を採用して、遅延を増加させることなくルーティングを最適化する。
5つの公開ベンチマークと高い同時実行性を持つストレステストにおける広範な実験は、AMRO-S が強力なルーティングベースラインに対して品質とコストのトレードオフを一貫して改善し、構造化されたフェロモンパターンによる追跡可能なルーティング証拠を提供することを示している。
アントコロニー最適化による効率的で解釈可能なマルチエージェント LLM ルーティング
arXiv cs.AI / 2026/3/16
📰 ニュースDeveloper Stack & InfrastructureModels & Research
要点
- AMRO-S は、推論コストと待機時間を削減しつつ透明性を高めるよう設計された、マルチエージェント LLM システム(MAS)向けの効率的で解釈可能なルーティングフレームワークを導入します。
- 監督付きファインチューニング(SFT)の小型言語モデルを意図推定に用い、ルーティング決定の低オーバーヘッドな意味的インターフェースを提供します。
- ルーティングメモリをタスク固有のフェロモン・スペシャリストに分解して、タスク間の干渉を減らし、混合ワークロード下で経路選択を最適化します。
- 品質ゲート付きの非同期更新機構を採用して推論と学習をデカップリングし、遅延を追加することなくルーティングの効率を向上させます。
- 5つの公開ベンチマークと高い同時実行性を持つストレステストの実験結果は、品質とコストのトレードオフを改善することを示し、構造化されたフェロモンパターンを通じて追跡可能なルーティング証拠を提供します。
関連記事
EU AI Act適合性のために11,529台のMCPサーバをスキャンしました
Dev.to
テックキャリアに4年間も費やしている
Dev.to

数学には思考の時間が、日常知識には記憶が必要であり、新しいTransformerアーキテクチャは両方を実現することを目指す
THE DECODER
[P] allToall アーキテクチャを用いたデータ並列で 3 台の Mac Minis M4 上で Llama3.2-1B-Instruct の推論! | smolcluster
Reddit r/MachineLearning

NVIDIA V100 32GB が Qwen Coder 30B A3B Q5 で約115トークン/秒を達成
Reddit r/LocalLLaMA