マルチエージェントAIシステムを構築するエンタープライズチームは、同等の予算条件では成立しないような成果のために、計算(compute)コストのプレミアムを支払っている可能性があります。スタンフォード大学の新しい研究では、同じ「思考トークン」予算が与えられた場合、複雑な推論タスクにおいて単一エージェント・システムがマルチエージェント構成に一致、あるいは上回ることが分かりました。
しかし、マルチエージェント・システムには追加の負債(計算オーバーヘッド)が伴います。通常、より長い推論トレースや複数のやり取りを用いるため、報告された向上がアーキテクチャ上の利点によるものなのか、単により多くのリソースを消費しているだけなのかが不明確になりがちです。
性能の真の要因を切り分けるため、スタンフォード大学の研究者は 複数ホップ推論の複雑なタスクにおいて、単一エージェント・システムとマルチエージェント構成を、同等の「思考トークン」予算のもとで比較しました。
その実験結果は、ほとんどの場合、計算が同等であれば単一エージェント・システムがマルチエージェント・システムと同等、または上回ることを示しています。マルチエージェント・システムが競争上の優位を得るのは、単一エージェントのコンテキストが長すぎる、あるいは破損してしまう場合です。
実務的には、十分な思考予算を備えた単一エージェント・モデルが、より効率的で信頼性が高く、費用対効果の高い複数ホップ推論を提供できることを意味します。エンジニアリングチームは、単一エージェントが性能の上限に到達するような状況に限って、マルチエージェント・システムを用意すべきです。
単一エージェントとマルチエージェントの境界を理解する
プランナーエージェント、ロールプレイング・システム、議論(ディベート)スウォームのようなマルチエージェントのフレームワークでは、複数のモデルが部分的なコンテキスト上で動作することで問題を分解します。これらのコンポーネントは、それぞれの回答を渡し合うことで互いに連携します。
マルチエージェントの解は強い実証的パフォーマンスを示す一方で、単一エージェントのベースラインと比較することは、多くの場合、精密な測定になっていません。比較は、テスト時の計算量の違いによって大きく混乱させられます。マルチエージェントのセットアップでは、複数のエージェント間で相互作用が必要で、推論トレースも長くなるため、消費するトークンが大幅に増えます。
ddその結果、マルチエージェント・システムが高い精度を報告しても、その向上がより良いアーキテクチャ設計によるものなのか、追加の計算(compute)に費やしたことによるものなのかを判断しにくくなります。
最近の研究では、計算予算が固定されている場合、凝ったマルチエージェント戦略は強力な単一エージェントのベースラインに比べて、しばしば成績が劣ることが示されています。とはいえ、それらは主にかなり大まかな比較であり、異なるマルチエージェント構成や、プロンプトトークンと推論トークンの違いといったニュアンスを考慮していません。
「私たちの論文の中心的なポイントは、単一エージェント・システム(SAS)とマルチエージェント・システム(MAS)の多くの比較が、“同じ条件のリンゴ同士”ではないということです」と、論文著者のDat Tran氏とDouwe Kiela氏はVentureBeatに語りました。「MASは、追加の呼び出し、より長いトレース、あるいはより多くの調整ステップによって、テスト時の計算をより有効に使えることが多いのです。」
厳格な予算のもとでマルチエージェントの課題を見直す
公平な比較を行うため、スタンフォードの研究者たちは厳格な「思考トークン」予算を設定しました。この指標は、最初のプロンプトと最終出力を除き、中間の推論のために独占的に使われるトークン数の合計を制御します。
この研究では、単一エージェントとマルチエージェントの両方を、複数ホップ推論タスクで評価しました。複数ホップ推論とは、答えに到達するために、ばらばらに存在する複数の情報片をつなぎ合わせる必要がある質問を指します。
実験の間、研究者たちは、単一エージェントのセットアップが内部推論を途中で止めてしまい、利用可能な計算予算が使われないまま残ってしまうことがあると気づきました。これに対抗するため、彼らはSAS-L(単一エージェント・システムで、思考を長くする)という手法を導入しました。
モデルが早い段階で諦めたときに、マルチエージェントのオーケストレーションへ飛びつくのではなく、研究者たちはシンプルな「プロンプトと予算」の変更を提案しています。
「エンジニアリング上の発想はシンプルです」とTran氏とKiela氏は述べました。「まず、単一エージェントのプロンプトを再構成して、モデルが最終回答に至る前の事前分析に、使える推論予算を明示的に使うよう促します。」
開発者が、モデルに対し、曖昧さを明示的に特定し、候補となる解釈を列挙し、最終回答を確定する前に代替案をテストするよう指示することで、単一エージェント構成の中にある“協調”の恩恵を取り戻せます。
実験結果は、複数ホップ推論タスクにおいて、単一エージェントが最も強いデフォルトのアーキテクチャであることを裏づけています。推論トークンの消費が少ないにもかかわらず、最も高い精度の回答を生成します。GoogleのGemini 2.5のような特定のモデルと組み合わせると、思考をより長くするバリアントでは、さらに集計(総合)パフォーマンスが向上します。
研究者たちは、単一エージェントがスウォームより優れる理由を説明するために「Data Processing Inequality(データ処理不等式)」という概念に依拠しています。マルチエージェント・フレームワークは、本質的にコミュニケーションのボトルネックを生み込みます。情報が要約され、エージェント間で引き継がれるたびに、データが失われるリスクがあります。
対照的に、単一エージェントは1つの連続したコンテキスト内で推論するため、この分断を避けられます。タスクに利用可能な最も豊かな表現へのアクセスを保持できるため、固定予算のもとではより情報効率が高くなります。
著者らはまた、企業がマルチエージェント・システムの二次的なコストを見落としがちだとも指摘しています。
「企業がしばしば過小評価しているのは、オーケストレーションは無料ではないという点です」と彼らは言います。「追加のエージェントが増えるたびに、コミュニケーションのオーバーヘッド、より多くの中間テキスト、ロスのある要約が発生する機会、そしてエラーが連鎖して増幅してしまう場所が増えます。」
一方で、彼らは、単一エージェントの環境がごちゃごちゃになる場合には、マルチエージェントのオーケストレーションが優れていることを発見しました。企業のアプリケーションが、ノイズの多いデータ、注意をそらす要素で満たされた長い入力、破損した情報など、非常に劣化したコンテキストを扱う必要があるなら、単一エージェントは苦戦します。こうした状況では、マルチエージェント・システムによる構造化されたフィルタリング、分解、検証によって、関連情報をより確実に回復できます。
この研究はさらに、マルチエージェントの性能を見かけ上押し上げてしまう隠れた評価の罠にも警告しています。APIが報告するトークン数だけに頼ると、アーキテクチャが実際にどれだけ計算に費やしているかが大きく歪められます。研究者たちは、Gemini 2.5のようなモデルをテストすることで、この会計上のアーティファクトを確認し、今日のエンタープライズ・アプリケーションにとって、それが現実の問題であることを示しています。
「APIモデルの場合、状況はさらに厄介です。予算の計上が不透明になり得るからです」と著者らは述べました。アーキテクチャを信頼性高く評価するために、彼らは開発者に対して「すべてをログに記録し、可能であれば見える推論トレースを測定し、推論トークン数が提供元から開示されているときはそれを使い、これらの数値は慎重に扱う」ことを勧めています。
開発者にとっての意味
単一エージェント・システムが、同じ推論予算のもとで複数のエージェントの性能に匹敵するなら、モデル呼び出し回数が少なく、レイテンシが低く、デバッグが単純であるため、総保有コスト(TCO)で勝ちます。Tran氏とKiela氏は、このベースラインがない場合、「いくつかの企業が、“より効果的に推論する”のではなく“より多くの計算を費やす”ことから実際には生じているだけの、そうしたアーキテクチャに対して大きな『スウォーム税』を払ってしまう可能性がある」と警告しています。
意思決定の境界を別の観点から見るなら、全体のタスクがどれほど複雑かではなく、ボトルネックが正確にどこにあるかです。
「もし主に推論の深さが問題なら、SASで十分なことが多いです。もしコンテキストの分断や劣化が問題なら、MASのほうがより擁護可能になります」とTran氏は言いました。
タスクが1つのまとまったコンテキストウィンドウ内で処理できるなら、エンジニアリングチームは単一エージェントのままにすべきです。アプリケーションが高度に劣化したコンテキストを扱う場合にのみ、マルチエージェント・システムが必要になります。
先を見据えると、多エージェント・フレームワークは消え去ることはありませんが、最前線のモデルが内部推論能力をより高めるにつれて、その役割は進化していくでしょう。
「私たちの論文からの主な教訓は、多エージェント構造を、“エージェントが増えれば自動的に知能が向上する”というデフォルトの前提ではなく、特定のボトルネックに対する狙いを定めたエンジニアリング上の選択として扱うべきだ、ということです」とトランは述べました。
