要旨: プロンプト最適化は、重みを更新することなく、より良いシステムプロンプトを探索することで言語モデルを改善しますが、その有効性はタスクによって大きく異なります。私たちは、どのような条件がタスクをプロンプト最適化に適したものにするのかを調べます。異なるシステムプロンプト間の報酬の分散は、2つの成分に分解できることを示します。すなわち、生成の確率的性質(stochasticity)を捉える「応答間の分散」と、システムプロンプトの品質の違いを捉える「システムプロンプト間の分散」です。プロンプト最適化は、システムプロンプト間の分散が十分に大きい場合に成功しますが、応答間の分散がシステムプロンプト間の分散を支配する場合には失敗します。驚くべきことに、より多くのユーザープロンプトへスケールすると、システムプロンプト間の分散が減少することで最適化が悪化しうることも示します。特に、異なるユーザープロンプトが異なるシステムプロンプトを好むような不均一(heterogeneous)なデータセットではこの傾向が顕著です。この洞察に動機づけられて、候補となるシステムプロンプトに対して分散が高いユーザープロンプトの小さな部分集合を選択する、単純なユーザープロンプトフィルタリング手法である p1 を提案します。この部分集合により、良いシステムプロンプトと悪いシステムプロンプトを区別できるため、システム最適化が容易になります。推論ベンチマークに関する実験では、p1 は全データセットでの学習に比べてプロンプト最適化を大幅に改善し、GEPA のような強力なベースラインを上回ることが示されます。特に、AIME 24 から2つのプロンプトだけで学習すると、他の推論ベンチマークにもよく一般化するシステムプロンプトが得られます。
$p1$: より少ないプロンプトで実現するプロンプト最適化
arXiv cs.LG / 2026/4/13
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文では、(モデルの重みを更新せずに)システムプロンプトを改善するプロンプト最適化がうまく機能する条件を、性能のばらつきを「応答の確率的揺らぎ」と「システムプロンプト品質の違い」に分解して分析する。
- システムプロンプト間の分散が大きい場合にはプロンプト最適化が有効である一方、システムプロンプトの違いよりも生成のランダム性によって分散が支配されると、うまくいかない傾向があることを見出す。
- 著者らは、より多くのユーザープロンプトにスケールすると、(特に不均一なデータセット上で)システムプロンプト間の分散を低減でき、その結果最適化が難しくなることを示す。
- そこで、候補となるシステムプロンプト間で分散が高い少数のユーザープロンプトを選択するユーザープロンプトのフィルタリング手法として、$p1$を提案する。これにより、良いシステムプロンプトと悪いシステムプロンプトをより適切に分離できる。
- 推論ベンチマークでの実験では、$p1$がプロンプト最適化を大幅に改善し、強い汎化性能を達成することが示される。具体的には、AIME 24で2つのプロンプトのみを用いて訓練したシステムプロンプトが、他の推論ベンチマークにも転移する。
