デルタを分解する:モデルは選好ペアから実際に何を学ぶのか?
arXiv cs.AI / 2026/4/13
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、DPOやKTOのような選好最適化手法が推論を改善する理由を、どのような選好ペアの性質が下流の改善につながるのかに焦点を当てて考察する。
- 「品質デルタ」を2つの成分に分解する:選好を生成する側のデルタ(選ばれたトレースと拒否されたトレースを生成するモデル同士の差)と、サンプル側のデルタ(各選好ペア内で判断される品質差がどれほど大きいか)。
- 実験では、選好ジェネレータのスケールやファミリを変化させ、生成側デルタが大きいほど、領域外の推論性能が一貫して向上することを示す。
- サンプル側のデルタについて、著者らはLLM-as-a-judge(LLMによるジャッジ)を用いて、推論の質を複数の次元で評価し、サンプル側デルタに基づくフィルタリング/選択が学習をよりデータ効率よくできることを見出す。
- 著者らは最後に、より良い推論アライメントのための2部構成のレシピを提示する:選好構築の段階で生成側デルタを最大化し、サンプル側デルタを用いて最も情報量の多い学習例を選ぶ。
