インコンテキスト・プロンプティングは手順型タスクでのエージェント・オーケストレーションを時代遅れにする

arXiv cs.AI / 2026/5/1

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • LangGraphやCrewAI、OpenAI Agents SDKなどのエージェント・オーケストレーションは、LLMの上に外部コントローラを置き、状態を追跡しながら各ターンでルーティング指示を注入する。
  • 本論文は、手順に沿った(ステップ型の)タスクでは、手順全体をシステムプロンプトに埋め込み、モデルに自己オーケストレーションさせるより単純な設計が有効であると主張する。
  • 3つの領域(旅行予約、Zoomの技術サポート、保険金請求処理)で、各条件200会話を用いた統制実験の結果、インコンテキスト方式のほうがLangGraphオーケストレータより高い品質スコアを得た。
  • 外部オーケストレータは3領域すべてで失敗率が高く、たとえば旅行では24% vs 11.5%、Zoomでは9% vs 0.5%、保険では17% vs 5%だった。
  • 著者らは、初期のモデルでは外部オーケストレーションが必要だった可能性はあるものの、フロンティアモデルの能力向上により、定められた手順に従う多ターン会話では不要になりつつあると結論づけている。

要旨: エージェントのオーケストレーションフレームワーク――LangGraph、CrewAI、Google ADK、OpenAI Agents SDK など――は、LLMの外側に外部オーケストレータを配置し、状態を追跡し、あらゆるターンでルーティング指示を注入します。本稿では、このアーキテクチャが手続き(手順)型のタスクにおいてはより単純な代替案に支配されることを示す、制御された比較を提示します。具体的には、手順全体をシステムプロンプトに入れ、モデルに自己オーケストレーションさせる方法です。3つの領域――旅行予約(14ノード)、Zoomの技術サポート(14ノード)、保険請求処理(55ノード)――において、条件ごとに200会話を、LLMを判定者(judge)として用いる採点(5つの品質基準)で評価します。文脈内アプローチは、5点満点の尺度で4.53~5.00を獲得する一方、同じモデルを用いたLangGraphオーケストレータは4.17~4.84です。オーケストレーションされたシステムは、旅行で24%、Zoomで9%、保険で17%の会話に失敗しますが、文脈内ベースラインではそれぞれ11.5%、0.5%、5%です。外部オーケストレーションは、より初期のモデルに対しては必要だった可能性がありますが、最前線(frontier)モデルの能力が進歩したことで、定義された手順に従うマルチターン会話ではもはや不要になりました。