MGDA-Decoupled：DPOベースのLLMアラインメントにおける幾何学的考慮の多目的最適化

arXiv cs.LG / 2026/4/23

📰 ニュースIdeas & Deep AnalysisTools & Practical UsageModels & Research

共有:

要点

本論文は、有益性・真実性・無害性などの目的が衝突し得る状況を踏まえ、LLMアラインメントを多目的最適化問題として扱う。
多くのアラインメント手法で用いられる固定スカラー化は、達成が難しい目的や少数派の目的を体系的に過小評価し、手続き上の不公平につながり得ると主張する。
それを解決するために、MGDA-Decoupledは、各目的の収束ダイナミクスを明示的に考慮しつつ共有の降下方向を求める幾何学的アプローチを提案する。
先行研究が強化学習（例：GAPO）や明示的な報酬モデル（例：MODPO）に依存するのに対し、本手法は軽量なDPO（Direct Preference Optimization）パラダイム内で完結する。
UltraFeedbackデータセットでの実験では、幾何学的手法（特にMGDA-Decoupled）が、ゴールデン応答に対する勝率で総合的にも各目的別にも最良の結果を示した。

要旨: 大規模言語モデル（LLM）を望ましい人間の価値観に合わせるには、有用性、真実性、無害性といった、複数かつ場合によっては相反する目的のバランスを取る必要があり、これは多目的最適化という課題を伴います。多くのアライメントのパイプラインは、これらの目的の固定されたスカラー化に依存しており、その結果として、最適化が難しい、または少数派の目的の重みを体系的に過小評価することで、手続き上の不公平が生じうることがあります。より公平なトレードオフを促すために、本論文では幾何学に基づく多目的最適化アルゴリズムであるMGDA-Decoupledを提案します。この手法は、各目的の収束ダイナミクスを明示的に考慮しながら、共有の降下方向を見つけます。強化学習（例：GAPO）や明示的な報酬モデル（例：MODPO）に依存する先行手法とは対照的に、我々のアプローチは軽量なDirect Preference Optimisation（DPO）の枠組みの中だけで完全に動作します。UltraFeedbackデータセットでの実験では、幾何学を考慮した手法、特にMGDA-Decoupledが、ゴールデンレスポンスに対して最も高い勝率を達成しており、全体としても、目的ごとにも同様の結果が得られています。