訓練不要のエージェント型AI: マルチエージェントLLMシステムにおける確率的制御と協調

arXiv cs.CL / 2026/3/17

📰 ニュースDeveloper Stack & InfrastructureModels & Research

共有:

要点

REDEREFは、再帰的委任の過程でのルーティング効率を改善するために、複数エージェントのLLM協力を調整する軽量な訓練不要のコントローラです。
信念に基づく委任とトンプソン採択を組み合わせ、過去に正の限界寄与を示したエージェントを優先し、キャリブレート済みのLLMまたはジャッジによる反省主導の再ルーティングと、出力平均化ではなく証拠に基づく選択を実現します。
マルチエージェントの知識分割タスク全体において、REDEREFはランダムな再帰的委任と比較してトークン使用量を28%、エージェント呼び出しを17%、成功までの時間を19%削減します。
エージェントまたはジャッジの劣化が生じても、手法は適切に適応し、訓練やファインチューニングを必要としません。

要旨: マルチエージェント大型言語モデル（LLM）システムは、専門的なエージェントを組み合わせることにより複雑で長期的な推論を可能にしますが、実用的な展開は非効率なルーティング、ノイズの多いフィードバック、そして高い相互作用コストによって妨げられています。私たちは REDEREF を紹介します。これは軽量で訓練を必要としないマルチエージェントLLM協調のコントローラで、再帰的委任中のルーティング効率を改善します。REDEREF は (i) 歴史的に正の限界寄与を示すエージェントを優先する Thompson sampling を用いた信念に基づく委任、(ii) 校正済みの LLM またはプログラムジャッジを用いた反映主導の再ルーティング、(iii) 出力の平均化ではなく証拠に基づく選択、(iv) コールドスタートの非効率を低減するためのメモリ対応の事前分布を統合します。マルチエージェントの分割知識タスクにおいて、再帰的リトライだけではタスクの成功率が頭打ちになる一方、信念に基づくルーティングはランダムな再帰委任と比較してトークン使用量を28%、エージェント呼び出しを17%、成功までの時間を19%削減し、エージェントまたはジャッジの劣化状況下でも適切に適応します。これらの結果は、訓練やファインチューニングを要さず、単純で解釈可能な確率的制御がマルチエージェントLLMシステムの効率と堅牢性を意味のあるレベルで改善し得ることを示しています。