要約: 自動プロンプト最適化(APO)は、手動のプロンプト設計を必要とせずにLLMの性能を向上させる強力なパラダイムとして登場した。反省的な APO 手法である GEPA は、失敗ケースを診断してプロンプトを反復的に洗練させるが、最適化プロセスはブラックボックスでラベルレスのままであり、解釈不能な軌跡や体系的な失敗を招く。私たちは4つの制限を特定し、実証的に示す:欠陥のあるシードを用いた GSM8K において、GEPA は精度を23.81%から13.50%へ低下させる。私たちは仮説生成とプロンプト書き換えを分離するマルチエージェント APO フレームワーク VISTA を提案し、意味論的にラベル付けされた仮説、並列ミニバッチ検証、および解釈可能な最適化トレースを可能にする。ランダムリスタートと ε-greedy サンプリングを組み合わせた2層の探索-活用機構は、局所最適解からの脱出をさらに促進する。VISTA は同じ欠陥シードで精度を87.57%まで回復させ、GSM8K および AIME2025 のすべての条件でベースラインを一貫して上回る。
闇の中の反射: 反射的プロンプト最適化におけるブラックボックスの暴露と脱出
arXiv cs.AI / 2026/3/20
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文は GEPA のような反射的自動プロンプト最適化(APO)手法の四つの制約を特定し、ブラックボックス、ラベルなしの最適化が解釈不能な軌跡と体系的な失敗をもたらす可能性を示している(例として、欠陥のあるシードを用いた GSM8K で精度が 23.81% から 13.50% に低下する)。
- VISTA を提案する。これは仮説生成とプロンプトの書き換えを分離するマルチエージェント APO フレームワークで、意味的にラベル付けされた仮説、並列ミニバッチ検証、および解釈可能な最適化トレースを可能にする。
- 探索–活用の二層機構を導入する。ランダムリスタートと ε-グリーディーサンプリングを組み合わせ、最適化中に局所最適解からの脱出を助ける。
- GSM8K および AIME2025 の実験で、欠陥のあるシードに対して精度を 87.57% に回復させ、条件を問わず一貫してベースラインを上回る。




