要旨:Best-of-N サンプリングなどのテスト時の整列手法の最近の進歩は、報酬モデル(RM)を用いて、言語モデル(LM)を望ましい挙動へ誘導する、単純で効果的な方法を提供します。
しかし、これらのアプローチは計算コストが高くなることがあり、特に整列難易度の差を考慮せずにプロンプト全体に一様に適用する場合には顕著です。
本研究では、Best-of-N アラインメントのためのプロンプト適応戦略を提案し、推論時の計算資源をより効率的に割り当てます。
レイテンシの懸念を動機として、私たちは2段階のアルゴリズムを開発しました。最初の探索フェーズでは、各プロンプトの報酬分布を小規模な探索予算で推定し、第二フェーズではこれらの推定値を用いて残りの予算を適応的に割り当てます。
私たちの手法はシンプルで実用的であり、任意の LM-RM の組み合わせと互換性があります。
AlpacaEval、HH-RLHF、PKU-SafeRLHF データセットのプロンプトを対象とした、12組の LM/RM ペアおよび 50種類の異なるプロンプトバッチについての実証結果は、同じ推論予算を用いた場合の一様割り当てを上回ることを示しています。
さらに、推論予算を20パーセント多くした場合の一様割り当てと比較しても、私たちの適応戦略は競争力を維持し、バッチサイズが大きくなるにつれて性能が向上します。
AdaBoN: 適応的 Best-of-N アライメント
arXiv cs.CL / 2026/3/16
💬 オピニオンIdeas & Deep AnalysisTools & Practical UsageModels & Research
要点
- AdaBoN は、言語モデルのアラインメントのために推論時の計算資源をより効率的に割り当てるための、プロンプト適応型の Best-of-N アライメント戦略を提案します。
- 本手法は2段階のアルゴリズムを用います。最初の探索フェーズでは、各プロンプトの報酬分布を小さな予算で推定し、第二段階で残りの予算を適応的に割り当てます。
- AlpacaEval、HH-RLHF、PKU-SafeRLHF のデータセットからのプロンプトを対象に、12組の LM/RM ペアと 50 のプロンプト・バッチにおいて、適応戦略は同じ予算での一様割り当てを上回ることを示しています。
- このアプローチは、20% 多い予算を用いた場合の一様割り当てと比較しても競争力を保ち、バッチサイズが大きくなるにつれてより恩恵を受けます。



