要旨: プロンプト設計は有効だが労働集約的であり、自動化された最適化手法を促す。
既存の手法は通常、ラベル付きデータセットを必要とするが、それらは入手できないことが多く、冗長で反復的なプロンプトを生み出す。
我々は PrefPO を紹介する。人間のフィードバックに基づく強化学習(RLHF)に触発された最小限のプロンプト最適化アプローチ。
その選好ベースのアプローチは、ラベル付きデータとハイパーパラメータ調整の必要性を削減する。必要なのは開始プロンプトと自然言語基準だけである。
PrefPO は LLM 判別器を用いてモデル出力に対するペアワイズの選好を表現し、LLM 最適化器へフィードバックを提供し、性能を反復的に改善する。
PrefPO を 9 個の BIG-Bench Hard (BBH) タスクと IFEval の新たに選定された挑戦的なサブセットである IFEval-Hard に対して評価する。
PrefPO は GEPA、MIPRO、TextGrad を含む最先端手法と同等かそれを上回る。9タスク中 6/9 タスクで、IFEval-Hard では TextGrad と同等の性能を示す(82.4% 対 84.5%)。
他の手法とは異なり、PrefPO はラベル付き設定とラベルなし設定の双方で最適化できる。
ラベルなしの場合、PrefPO は 6/9 タスクでラベル付き時の性能にほぼ匹敵し、正解データがなくても効果的であることを証明している。
PrefPO はプロンプトの衛生状態(健全性)も改善する。既存の手法は元の長さの 14.7 倍のプロンプトを生成するか、34% の反復的な内容を含むことがあると判明した。PrefPO はこれらの問題を 3〜5 倍軽減する。
さらに、LLM と人間の評価者は PrefPO のプロンプトを TextGrad のものより高く評価する。
最後に、プロンプト最適化の手法におけるプロンプト・ハッキングを特定し、評価基準を操作する問題があることを発見した。PrefPO は TextGrad の半分の割合(37% 対 86%)で影響を受けやすく、壊れやすく整合性の取れていないプロンプトを生成する頻度が少ない。
PrefPO: ペアワイズ・プレファレンス・プロンプト最適化
arXiv cs.CL / 2026/3/23
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- PrefPOは、ラベル付きデータおよびハイパーパラメータ調整の必要性を低減する、最小限のRLHFに触発されたプロンプト最適化手法を提案します。開始プロンプトと自然言語の基準のみを要求します。
- LLM識別器を用いてモデル出力に対するペアワイズの好みを表現し、そのフィードバックを別のLLMオプティマイザーへ供給して、プロンプトを反復的に洗練させます。
- BIG-Bench Hardの9タスクとIFEval-Hardの評価では、PrefPOは9タスク中6タスクでSOTA手法と同等またはそれを上回り、IFEval-Hardではラベルあり・なしの設定のいずれにおいてもTextGradと同等の性能を示します。
- また、長さと反復性を削減することでプロンプトの衛生性を改善し、TextGradと比較してプロンプトハッキングの影響を受けにくくし、LLMジャッジと人間評価者の双方からより高い評価を得ています。