インコンテキスト・プロンプティングは手順型タスクでのエージェント・オーケストレーションを時代遅れにする

arXiv cs.AI / 2026/5/1

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

LangGraphやCrewAI、OpenAI Agents SDKなどのエージェント・オーケストレーションは、LLMの上に外部コントローラを置き、状態を追跡しながら各ターンでルーティング指示を注入する。
本論文は、手順に沿った（ステップ型の）タスクでは、手順全体をシステムプロンプトに埋め込み、モデルに自己オーケストレーションさせるより単純な設計が有効であると主張する。
3つの領域（旅行予約、Zoomの技術サポート、保険金請求処理）で、各条件200会話を用いた統制実験の結果、インコンテキスト方式のほうがLangGraphオーケストレータより高い品質スコアを得た。
外部オーケストレータは3領域すべてで失敗率が高く、たとえば旅行では24% vs 11.5%、Zoomでは9% vs 0.5%、保険では17% vs 5%だった。
著者らは、初期のモデルでは外部オーケストレーションが必要だった可能性はあるものの、フロンティアモデルの能力向上により、定められた手順に従う多ターン会話では不要になりつつあると結論づけている。

要旨: エージェントのオーケストレーションフレームワーク――LangGraph、CrewAI、Google ADK、OpenAI Agents SDK など――は、LLMの外側に外部オーケストレータを配置し、状態を追跡し、あらゆるターンでルーティング指示を注入します。本稿では、このアーキテクチャが手続き（手順）型のタスクにおいてはより単純な代替案に支配されることを示す、制御された比較を提示します。具体的には、手順全体をシステムプロンプトに入れ、モデルに自己オーケストレーションさせる方法です。3つの領域――旅行予約（14ノード）、Zoomの技術サポート（14ノード）、保険請求処理（55ノード）――において、条件ごとに200会話を、LLMを判定者（judge）として用いる採点（5つの品質基準）で評価します。文脈内アプローチは、5点満点の尺度で4.53～5.00を獲得する一方、同じモデルを用いたLangGraphオーケストレータは4.17～4.84です。オーケストレーションされたシステムは、旅行で24%、Zoomで9%、保険で17%の会話に失敗しますが、文脈内ベースラインではそれぞれ11.5%、0.5%、5%です。外部オーケストレーションは、より初期のモデルに対しては必要だった可能性がありますが、最前線（frontier）モデルの能力が進歩したことで、定義された手順に従うマルチターン会話ではもはや不要になりました。

AIの次に来る技術、投資データで浮き彫りにランキング上位を徹底解説

日経XTECH

自律的なコーディングエージェントが失敗し続ける理由――そして本当に効く対策

Dev.to

ChatGPTの「画像生成」、どう進化？　開発者に聞く　“文字化け解消”の秘訣

ITmedia AI+

なぜエンタープライズのAIパイロットは失敗するのか

Dev.to

誰も欲しがらないのに、私は毎日使っているPDF機能

Dev.to

インコンテキスト・プロンプティングは手順型タスクでのエージェント・オーケストレーションを時代遅れにする

要点

関連記事

AIの次に来る技術、投資データで浮き彫りにランキング上位を徹底解説

自律的なコーディングエージェントが失敗し続ける理由――そして本当に効く対策

ChatGPTの「画像生成」、どう進化？　開発者に聞く　“文字化け解消”の秘訣

なぜエンタープライズのAIパイロットは失敗するのか

誰も欲しがらないのに、私は毎日使っているPDF機能

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

AIの次に来る技術、投資データで浮き彫りに ランキング上位を徹底解説

自律的なコーディングエージェントが失敗し続ける理由――そして本当に効く対策

ChatGPTの「画像生成」、どう進化？ 開発者に聞く “文字化け解消”の秘訣

なぜエンタープライズのAIパイロットは失敗するのか

誰も欲しがらないのに、私は毎日使っているPDF機能

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

AIの次に来る技術、投資データで浮き彫りにランキング上位を徹底解説

ChatGPTの「画像生成」、どう進化？　開発者に聞く　“文字化け解消”の秘訣