プロンプト最適化はコイン投げか:複合AIシステムで効く/効かない条件を診断する

arXiv cs.AI / 2026/4/17

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 複合AIシステムにおけるプロンプト最適化は、統計的にランダムと同程度にしか改善しないことが多いと示されており、ゼロショットより悪化する実行も少なくありません。
  • Claude Haiku(72回の最適化実行)やAmazon Nova Liteでも、ゼロショットを下回る失敗が高い割合で発生し、最適化がうまくいかないケースが頻出することが分かります。
  • TextGradやDSPyのようなエンドツーエンド最適化ツールが前提にしがちな「個々のプロンプトを最適化すべきか」「エージェントのプロンプト同士は相互作用するため共同最適化が必要か」を検証しましたが、相互作用(エージェント結合)は有意ではありません。
  • 最適化が有効になるのは、モデルが要求フォーマットを生成できる一方で通常はデフォルトでそれに到達しない「出力構造を活用できるタスク」に限られることが明らかになります。
  • 実務向けに、$80のANOVA事前テストで結合の有無を確認し、さらに10分のヘッドルームテストで最適化の見込みを予測する二段階の診断手法を提示しています。