AIモデルは互いを指揮できるのか?訓練上の制約への探針としての組織構造
arXiv cs.AI / 2026/3/30
📰 ニュース
要点
- 本論文は、高価な「マネージャー」LLMが、外部タスクのディスパッチとコード実行を用いる2者エージェントのManagerWorkerパイプラインによって、より安価な「ワーカー」LLMにソフトウェア工学タスクの解決を指示できるかを検証している。
- 200件のSWE-bench Liteインスタンスにわたって、強力なマネージャーが弱いワーカーを導く場合、精度は62%であり、同等の精度(60%)を達成する強力な単一モデルと比較して、はるかに少ない「強いモデル」トークンで実現できる。
- 弱いマネージャーが弱いワーカーを指揮すると弱いベースラインを下回り(42% vs. 44%)、マネージャー・ワーカー構成が有効なのは、実際の能力差があり、かつ効果的な指示が行われる場合に限られることを示している。
- 著者らは、価値はレビューのみのループではなく、能動的な委任/構造化された探索によって生まれることを見出しており(+2ポイントのみ)、計画/探索が約+11ポイント寄与している。
- 結果は、現在のモデルは大部分がモノリシックなエージェントとして訓練されているため、役割をディレクター/ワーカーに分割することが訓練分布と衝突し、訓練上の制約がある可能性を示唆する。提案される修正は、各エージェントを訓練されたモードの近くに保ち、組織構造はコード内に外部化することである。
- categories: [