ランダムを打ち負かすのは難しい：モダンLLMにおけるオンラインDPOでのアクティブ選択

arXiv cs.LG / 2026/4/6

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、モダンLLMを用いたオンラインDirect Preference Optimization（DPO）におけるアクティブ選好学習（APL）を研究し、事前学習の事前分布（プリトレーニング・プライヤ）が強いとき、不確実性ベースのサンプリングが単純なランダム選択に勝るのかを問いかける。
無害性・有益性・指示追従といった複数の評価指標において、報酬モデルとLLM-as-a-judgeの代理指標を用いると、APLはランダムサンプリングに対して代理勝率でわずかな改善しか示さない。
著者らは、勝率は向上し得る一方で、全体的な汎用能力（標準ベンチマークに基づく）が低下するという解離を観察し、代理指標の判断とより広い品質との間にトレードオフやミスアラインメントの可能性が示唆される。
APLは、アクティブ選択のための計算オーバーヘッドを追加するにもかかわらず、ランダムサンプリングよりも分散を実質的に低減したり、「能力崩壊（capability collapse）」をよりよく防いだりはできない。
研究は結論として、事前学習の事前分布が強い場合、アクティブ選択にかかる追加コストは、ランダムの「安価な多様性」と比較すると正当化しにくいと述べており、コードを公開している。

要旨: 現代のLLMは、ウェブ規模の事前学習から強い事前知識（priors）を継承しており、その結果として、事後学習におけるデータ選択戦略の余地（headroom）が制限される可能性があります。アクティブ・パREFERENCE・ラーニング（Active Preference Learning; APL）は、オンラインのダイレクト・プリファレンス・オプティマイゼーション（Direct Preference Optimization; DPO）においてクエリ効率を最適化しようとしますが、方策に基づく（on-policy）候補プールの本質的な豊かさによって、単純なランダムサンプリングが驚くほど強力なベースラインになることがしばしばあります。本研究では、報酬モデルとLLMを「判断者（judge）」として用いる代理指標の両方を用いて、無害性、有用性、指示追従の各設定において、uncertainty（不確実性）ベースのAPLをランダムと比較評価します。その結果、APLはランダムと比べてプロキシの勝率（proxy win-rates）に対してほとんど改善を示しません。重要な点として、一般的能力（標準ベンチマークによって測定される）が低下する一方で、勝率が向上するという分離（dissociation）を観察します。APLは、この能力崩壊（capability collapse）を緩和したり、ランダムサンプリングより有意に分散（variance）を低減したりすることに失敗します。これらの知見は、強力な事前学習の事前知識が支配的な状況では、能動的選択に伴う計算オーバーヘッドは、単純なランダムサンプルによって提供される「安価な多様性（cheap diversity）」に対して正当化しにくいことを示唆します。本研究のコードは https://github.com/BootsofLagrangian/random-vs-apl で公開しています。