デルタを分解する:モデルは選好ペアから実際に何を学ぶのか?

arXiv cs.AI / 2026/4/13

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、DPOやKTOのような選好最適化手法が推論を改善する理由を、どのような選好ペアの性質が下流の改善につながるのかに焦点を当てて考察する。
  • 「品質デルタ」を2つの成分に分解する:選好を生成する側のデルタ(選ばれたトレースと拒否されたトレースを生成するモデル同士の差)と、サンプル側のデルタ(各選好ペア内で判断される品質差がどれほど大きいか)。
  • 実験では、選好ジェネレータのスケールやファミリを変化させ、生成側デルタが大きいほど、領域外の推論性能が一貫して向上することを示す。
  • サンプル側のデルタについて、著者らはLLM-as-a-judge(LLMによるジャッジ)を用いて、推論の質を複数の次元で評価し、サンプル側デルタに基づくフィルタリング/選択が学習をよりデータ効率よくできることを見出す。
  • 著者らは最後に、より良い推論アライメントのための2部構成のレシピを提示する:選好構築の段階で生成側デルタを最大化し、サンプル側デルタを用いて最も情報量の多い学習例を選ぶ。

Abstract

DPO や KTO などの選好最適化(preference optimization)手法は、言語モデルの整合(アラインメント)に広く用いられているものの、選好データのどのような性質が下流の推論向上につながるのかについては、十分に理解されていません。私たちは次の問いを立てます。すなわち、選好ペアのどの側面が、汎用の推論タスクにおける推論モデルの性能を高めるのでしょうか。選好データにおける品質デルタ(quality delta)について、異なる2つの概念を調査します。1つ目は生成器レベルのデルタ(generator-level delta)で、選好(chosen)および非選好(rejected)の推論トレースを生成するモデル間の能力の差から生じます。2つ目はサンプルレベルのデルタ(sample-level delta)で、個々の選好ペアにおける、評価された品質差(judged quality differences)の違いから生じます。生成器レベルのデルタを調べるために、生成器のスケールとモデルファミリを変化させます。またサンプルレベルのデルタを調べるために、LLM-as-a-judge を用いて、複数の推論品質(reasoning-quality)次元に沿って生成されたトレースの品質を評価します。その結果、生成器レベルのデルタを増やすことで、領域外の推論タスクにおける性能が着実に向上することが分かりました。さらに、サンプルレベルのデルタでデータをフィルタリングすることで、よりデータ効率の高い学習が可能になることも示されました。これらの結果は、選好最適化を通じて推論性能を改善するための二段階のレシピを示唆しています。すなわち、選好ペアを構築する際には生成器レベルのデルタを最大化し、サンプルレベルのデルタを活用して最も有益な学習例を選択するのです。