LLMプロンプト対戦オプティマイザ:ラベル不要の効率的プロンプト最適化

arXiv stat.ML / 2026/4/10

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、コストのかかる教師ありの正解ラベルではなく、LLMジャッジによるペアワイズ(対)嗜好フィードバックに依存する、ラベル不要のLLMプロンプト最適化のためのサンプル効率的フレームワーク「Prompt Duel Optimizer(PDO)」を提案する。
  • PDOはプロンプト探索をデュエリング・バンディット問題として定式化し、固定されたジャッジ予算の範囲内で最も情報量の大きいプロンプト同士の比較を選ぶためにDouble Thompson Samplingを用いる。
  • さらに、上位パフォーマーに導かれた突然変異(mutation)を採用して候補プロンプト集合を反復的に拡張し、弱いプロンプトを剪定(pruning)することで効率を高める。
  • BIG-bench Hard(BBH)およびMS MARCOでの実験により、PDOがラベル不要のベースラインよりも優れたプロンプトを見つけ、比較予算が限られている場合でも質とコストの良好なトレードオフを達成することが示される。

Abstract

大規模言語モデル(LLM)はプロンプトに非常に敏感ですが、ほとんどの自動プロンプト最適化(APO)手法は、入手コストが高い正解参照(例:ラベル付き検証データ)へのアクセスを前提としています。私たちは、LLMジャッジによる対(ペア)ごとの嗜好フィードバックに基づくラベルなしプロンプト最適化のための、サンプル効率の高い枠組みであるPrompt Duel Optimizer(PDO)を提案します。PDOはプロンプト選択をデュエリング・バンディット問題として定式化し、(i)固定されたジャッジ予算のもとで有益な比較を優先するためのDouble Thompson Samplingと、(ii)より高い性能を示した候補に導かれる突然変異(mutation)によって候補プールを拡張しつつ弱いプロンプトを刈り込むことを組み合わせます。BIG-bench Hard(BBH)およびMS MARCOでの実験により、PDOはラベルなしベースラインよりも一貫してより強いプロンプトを特定できることが示されました。また、比較予算が制約された状況下で、良好な品質—コストのトレードオフを提供します。