LLM嗜好最適化のためのDDO-RM:DPOに対する最小限のホールドアウト・ベンチマーク

arXiv stat.ML / 2026/4/14

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、LLMの嗜好最適化におけるDPOとDDO-RMを比較し、DDO-RMのアルゴリズム的な枠組みと、最小限のホールドアウト・ベンチマークを中心に述べる。
  • DDO-RMは、各プロンプトを有限の意思決定問題として捉え直し、報酬モデルのスコアを用いて複数の候補応答にわたるポリシー分布を更新し、その後、報酬に導かれた目標分布をポリシーへ蒸留することで実現する。
  • EleutherAI/pythia-410mとHuggingFaceH4/ultrafeedback_binarizedを用いた実験では、3つのランダムシード(42, 13, 3407)で、ホールドアウトのtest_prefs分割を評価する。
  • この予備的な設定では、DDO-RMはDPOに対して改善を報告しており、平均ペア正解率(0.5238→0.5602)およびAUC(0.5315→0.5382)の向上に加え、報告された平均マージンの増加(0.1377→0.5353)を含む。
  • 著者らは、これらの結果は初期段階であり、1つのモデルファミリ、1つのデータセット、1つのホールドアウト分割、そして少数のシードに限られているため、より広範な検証が必要だと強調している。

Abstract

本論文は、現在の原稿をDPO対DDO-RMの嗜好最適化(preference-optimization)プロジェクトを軸に整理し、2つの部分、すなわちアルゴリズム的観点と、事前に保持した(preliminary held-out)ベンチマークに焦点を当てます。このベンチマークは、狭い問いを投げかけます。つまり、最小限のペアワイズな「選好あり(chosen)」対「選好なし(rejected)」の設定であっても、報酬に導かれた決定分布の更新は、直接的なペアワイズ目的関数(direct pairwise objective)を上回ることができるのか、という問いです。HuggingFaceH4/ultrafeedback\_binarizedを用いて、EleutherAI/pythia-410m上でDirect Preference Optimization(DPO)とDDO-RMを比較し、保持済みのtest\_prefs分割で評価を行い、シード42、13、3407について結果を報告します。 アルゴリズム的に、DDO-RMは各プロンプトを、候補応答に対する有限の意思決定問題(finite decision problem)として扱います。二値の「chosen-rejected」関係のみを最適化するのではなく、候補にわたる方策分布(policy distribution)を形成し、その分布の下で報酬モデルのスコアを中心化(center)したうえで、報酬に導かれた目標分布(reward-guided target distribution)を方策へと蒸留(distill)します。現在の公開ベンチマークでは、DDO-RMはDPOに比べて、平均ペア精度(mean pair accuracy)を0.5238から0.5602へ、AUCを0.5315から0.5382へ、平均マージン(mean margin)を0.1377から0.5353へと改善しています。これらは有望ですが、依然として予備的な結果です。研究は、1つのモデル系列、1つのデータセット、1つの保持済み評価分割、そして3つのシードのみを対象としています。