LLM嗜好最適化のためのDDO-RM:DPOに対する最小限のホールドアウト・ベンチマーク
arXiv stat.ML / 2026/4/14
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、LLMの嗜好最適化におけるDPOとDDO-RMを比較し、DDO-RMのアルゴリズム的な枠組みと、最小限のホールドアウト・ベンチマークを中心に述べる。
- DDO-RMは、各プロンプトを有限の意思決定問題として捉え直し、報酬モデルのスコアを用いて複数の候補応答にわたるポリシー分布を更新し、その後、報酬に導かれた目標分布をポリシーへ蒸留することで実現する。
- EleutherAI/pythia-410mとHuggingFaceH4/ultrafeedback_binarizedを用いた実験では、3つのランダムシード(42, 13, 3407)で、ホールドアウトのtest_prefs分割を評価する。
- この予備的な設定では、DDO-RMはDPOに対して改善を報告しており、平均ペア正解率(0.5238→0.5602)およびAUC(0.5315→0.5382)の向上に加え、報告された平均マージンの増加(0.1377→0.5353)を含む。
- 著者らは、これらの結果は初期段階であり、1つのモデルファミリ、1つのデータセット、1つのホールドアウト分割、そして少数のシードに限られているため、より広範な検証が必要だと強調している。




