オンライン・アライメント手法が「不合理に」効果的な理由を解き明かす

arXiv cs.LG / 2026/4/21

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、反復的な貪欲（greedy）オンライン・アライメント手法（例：online RLHF、online DPO）が、KL正則化付きの回帰（regret）理論が示す以上に実務上は非常に良く機能する理由を分析する。
著者らは、この理論と実測のズレは回帰の評価基準そのものにあると主張しており、KL正則化付きregretが「学習の統計的コスト」と「正則化による探索的なランダム性（ソフト化された学習方策の影響）」を混同してしまう点を指摘する。
これらの影響を切り分けるために、推論時に上位の応答のみを評価する「temperature-zero」の意思決定中心（decision-centric）なregret基準を用いる。
この意思決定に基づく基準の下では、標準的な貪欲オンライン・アライメント手法が累積regretとして定数（O(1)）を達成することを証明する。
本結果は、ベスト応答の同定コストと、正則化に起因する確率的な揺らぎを分離することで、貪欲アライメントが実務で非常に効率的であることをより鋭く理論的に説明する。

要旨: 純粋に貪欲な更新に基づく反復アライメント手法は、実務上驚くほど有効である一方で、既存の理論的保証である
\(O(\log T)\) KL正則化付きレグレットが、実測上の性能と比べて悲観的に見えることがあります。本論文では、この不一致はレグレット指標そのものに由来すると主張します。すなわち、KL正則化付きレグレットは、学習に伴う統計的コストと、ソフト化された学習方策が誘発する探索的なランダム化とを、混同してしまいます。これらの効果を分離するために、推論時における上位ランクの応答のみを評価する、従来の温度ゼロ（temperature-zero）のレグレット基準を研究します。この意思決定中心の性能概念のもとで、オンラインRLHFやオンラインDPOを含む標準的な貪欲オンライン・アライメント手法が、累積レグレットを定数
\(（O(1)）\) で達成することを証明します。正則化によって誘発される確率性から、「最良の応答を見つけること」のコストを切り分けることで、本結果は、貪欲なアライメントが実務上非常に優れた効率（superb efficiency）を示すことに対する、より鋭い理論的説明を与えます。