広告

AIモデルは互いを指揮できるのか?訓練上の制約への探針としての組織構造

arXiv cs.AI / 2026/3/30

📰 ニュース

要点

  • 本論文は、高価な「マネージャー」LLMが、外部タスクのディスパッチとコード実行を用いる2者エージェントのManagerWorkerパイプラインによって、より安価な「ワーカー」LLMにソフトウェア工学タスクの解決を指示できるかを検証している。
  • 200件のSWE-bench Liteインスタンスにわたって、強力なマネージャーが弱いワーカーを導く場合、精度は62%であり、同等の精度(60%)を達成する強力な単一モデルと比較して、はるかに少ない「強いモデル」トークンで実現できる。
  • 弱いマネージャーが弱いワーカーを指揮すると弱いベースラインを下回り(42% vs. 44%)、マネージャー・ワーカー構成が有効なのは、実際の能力差があり、かつ効果的な指示が行われる場合に限られることを示している。
  • 著者らは、価値はレビューのみのループではなく、能動的な委任/構造化された探索によって生まれることを見出しており(+2ポイントのみ)、計画/探索が約+11ポイント寄与している。
  • 結果は、現在のモデルは大部分がモノリシックなエージェントとして訓練されているため、役割をディレクター/ワーカーに分割することが訓練分布と衝突し、訓練上の制約がある可能性を示唆する。提案される修正は、各エージェントを訓練されたモードの近くに保ち、組織構造はコード内に外部化することである。
  • categories: [

Abstract

高価なAIモデルは、安価なAIモデルを効果的に導いてソフトウェア工学のタスクを解かせることができるのでしょうか? 私たちはこの問いに対して、ManagerWorkerという2つのエージェントからなるパイプラインを導入することで検討します。ここでは、高価な「マネージャー」モデル(テキストのみ、コード実行なし)が、イシューを分析し、探索タスクを割り当て、実装をレビューします。一方、安価な「ワーカー」モデル(リポジトリ全体へのアクセスあり)が、コード変更を実行します。私たちは、SWE-bench Liteの200件のインスタンスを対象に、マネージャーとワーカーの関係、パイプラインの複雑さ、モデルの組み合わせを変化させる5つの構成で評価しました。その結果、マルチエージェントによる指示には期待と限界の両方があることが明らかになりました。(1) 強力なマネージャーが弱いワーカーを指示する場合(62%)は、強力な単一エージェント(60%)に一致しつつ、強力モデルのトークン使用量の一部で済むことが分かりました。つまり、高価な推論は高価な実行の代わりになり得ます。(2) 弱いマネージャーが弱いワーカーを指示する場合(42%)は、弱いエージェント単体(44%)よりも悪くなり、指示の関係には真の能力差が必要であることを示しています――中身のない構造だけでは純粋なオーバーヘッドです。(3) マネージャーの価値は、単なるレビューではなく「指示」にあります。最小限のレビューのみのループはベースラインに対してわずか2ppしか上乗せしませんが、構造化された探索と計画は11pp上乗せします。これにより、能力ギャップを生産的にするのは、能動的な指示であることが示されます。(4) これらの挙動は、単一の根本原因にたどり着きます。すなわち、現行のモデルはモノリシックなエージェントとして訓練されており、それらをディレクター/ワーカーの役割に分割することは、訓練分布に逆らうということです。このパイプラインは、この不一致を回避するように設計されて成功しています。すなわち、各モデルを、その訓練されたモードに近い形に保ちます(マネージャーはテキスト生成、ワーカーはツール利用)し、組織的な構造はコードに外部化します。この診断は、具体的な訓練ギャップを示唆しています。すなわち、委任、スコープ付き実行、モード切り替えといったスキルは、現在の訓練データには欠けています。

広告