LLMプロンプト対戦オプティマイザ:ラベル不要の効率的プロンプト最適化
arXiv stat.ML / 2026/4/10
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、コストのかかる教師ありの正解ラベルではなく、LLMジャッジによるペアワイズ(対)嗜好フィードバックに依存する、ラベル不要のLLMプロンプト最適化のためのサンプル効率的フレームワーク「Prompt Duel Optimizer(PDO)」を提案する。
- PDOはプロンプト探索をデュエリング・バンディット問題として定式化し、固定されたジャッジ予算の範囲内で最も情報量の大きいプロンプト同士の比較を選ぶためにDouble Thompson Samplingを用いる。
- さらに、上位パフォーマーに導かれた突然変異(mutation)を採用して候補プロンプト集合を反復的に拡張し、弱いプロンプトを剪定(pruning)することで効率を高める。
- BIG-bench Hard(BBH)およびMS MARCOでの実験により、PDOがラベル不要のベースラインよりも優れたプロンプトを見つけ、比較予算が限られている場合でも質とコストの良好なトレードオフを達成することが示される。




