LLM嗜好最適化のためのDDO-RM：DPOに対する最小限のホールドアウト・ベンチマーク

arXiv stat.ML / 2026/4/14

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、LLMの嗜好最適化におけるDPOとDDO-RMを比較し、DDO-RMのアルゴリズム的な枠組みと、最小限のホールドアウト・ベンチマークを中心に述べる。
DDO-RMは、各プロンプトを有限の意思決定問題として捉え直し、報酬モデルのスコアを用いて複数の候補応答にわたるポリシー分布を更新し、その後、報酬に導かれた目標分布をポリシーへ蒸留することで実現する。
EleutherAI/pythia-410mとHuggingFaceH4/ultrafeedback_binarizedを用いた実験では、3つのランダムシード（42, 13, 3407）で、ホールドアウトのtest_prefs分割を評価する。
この予備的な設定では、DDO-RMはDPOに対して改善を報告しており、平均ペア正解率（0.5238→0.5602）およびAUC（0.5315→0.5382）の向上に加え、報告された平均マージンの増加（0.1377→0.5353）を含む。
著者らは、これらの結果は初期段階であり、1つのモデルファミリ、1つのデータセット、1つのホールドアウト分割、そして少数のシードに限られているため、より広範な検証が必要だと強調している。

Abstract

本論文は、現在の原稿をDPO対DDO-RMの嗜好最適化（preference-optimization）プロジェクトを軸に整理し、2つの部分、すなわちアルゴリズム的観点と、事前に保持した（preliminary held-out）ベンチマークに焦点を当てます。このベンチマークは、狭い問いを投げかけます。つまり、最小限のペアワイズな「選好あり（chosen）」対「選好なし（rejected）」の設定であっても、報酬に導かれた決定分布の更新は、直接的なペアワイズ目的関数（direct pairwise objective）を上回ることができるのか、という問いです。HuggingFaceH4/ultrafeedback\_binarizedを用いて、EleutherAI/pythia-410m上でDirect Preference Optimization（DPO）とDDO-RMを比較し、保持済みのtest\_prefs分割で評価を行い、シード42、13、3407について結果を報告します。アルゴリズム的に、DDO-RMは各プロンプトを、候補応答に対する有限の意思決定問題（finite decision problem）として扱います。二値の「chosen-rejected」関係のみを最適化するのではなく、候補にわたる方策分布（policy distribution）を形成し、その分布の下で報酬モデルのスコアを中心化（center）したうえで、報酬に導かれた目標分布（reward-guided target distribution）を方策へと蒸留（distill）します。現在の公開ベンチマークでは、DDO-RMはDPOに比べて、平均ペア精度（mean pair accuracy）を0.5238から0.5602へ、AUCを0.5315から0.5382へ、平均マージン（mean margin）を0.1377から0.5353へと改善しています。これらは有望ですが、依然として予備的な結果です。研究は、1つのモデル系列、1つのデータセット、1つの保持済み評価分割、そして3つのシードのみを対象としています。

Black Hat Asia

AI Business

テスラのE2E自動運転技術FSD、オランダ承認「欧州初」一般道で手放し

日経XTECH

リコーのマルチモーダルAI、図面から寸法を読み出し普通公差を適用

日経XTECH

26年の世界半導体売上高、64％増の1.3兆ドル米ガートナー予測

日経XTECH

ソフトバンクなど3社、フィジカルAIへの通信ロボとMECの連係が鍵

日経XTECH

LLM嗜好最適化のためのDDO-RM：DPOに対する最小限のホールドアウト・ベンチマーク

要点

Abstract

関連記事

Black Hat Asia

テスラのE2E自動運転技術FSD、オランダ承認「欧州初」一般道で手放し

リコーのマルチモーダルAI、図面から寸法を読み出し普通公差を適用

26年の世界半導体売上高、64％増の1.3兆ドル米ガートナー予測

ソフトバンクなど3社、フィジカルAIへの通信ロボとMECの連係が鍵

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

Abstract

関連記事

Black Hat Asia

テスラのE2E自動運転技術FSD、オランダ承認 「欧州初」一般道で手放し

リコーのマルチモーダルAI、図面から寸法を読み出し普通公差を適用

26年の世界半導体売上高、64％増の1.3兆ドル 米ガートナー予測

ソフトバンクなど3社、フィジカルAIへの通信 ロボとMECの連係が鍵

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

テスラのE2E自動運転技術FSD、オランダ承認「欧州初」一般道で手放し

26年の世界半導体売上高、64％増の1.3兆ドル米ガートナー予測

ソフトバンクなど3社、フィジカルAIへの通信ロボとMECの連係が鍵