文脈付きオンライン不確実性に配慮した人間のフィードバックに基づく選好学習

arXiv stat.ML / 2026/5/1

💬 オピニオンModels & Research

要点

  • 本論文は、動的な文脈を伴う人間の選好データから最適モデルを学習するために、RLHF(人間のフィードバックによる強化学習)のオンライン意思決定と統計的推論を同時に行える新しい統計的枠組みを提案しています。
  • 時間とともに変化する文脈のもとで生成される選好結果の依存関係というRLHFの主要課題に対し、εグリーディの探索段階の後に活用(搾取)を行う2段階アルゴリズムを設計しています。
  • 理論面では、反集中(anti-concentration)不等式と行列マルチンゲールの濃度不等式を用いて、2段階で得られる従属サンプルに基づく一様な推定率と推定量の漸近正規性を導出しています。
  • シミュレーション結果では、提案手法が既存の最先端戦略よりも優れていることが示されています。
  • また、本枠組みをMMLU(Massive Multitask Language Understanding)データセット上で大規模言語モデルを順位付けするための人間の選好データ分析に適用し、医療解剖学の知識におけるモデル間の性能差に関する洞察を得ています。

Abstract

強化学習による人間のフィードバック(RLHF)は、大規模モデルを人間の嗜好に整合させるための人工知能における重要なパラダイムとなっています。本論文では、動的な文脈情報に基づく人間の嗜好データを用いて、最適モデルに関するオンラインの意思決定と統計的推論を同時に行うための新しい統計的枠組みを提案します。提案手法は、最適な損失(regret)上界と推定量の漸近分布の両方を達成する効率的な意思決定戦略を導入します。RLHFにおける主要な課題は、動的な文脈を伴う従属的なオンラインの人間の嗜好結果を扱うことです。これに対処するため、方法論の側面では、epsilon-greedyから開始して利用(exploitations)へ進む2段階アルゴリズムを提案します。理論の側面では、反集中不等式と行列マルチンゲールの集中技術をそれぞれ適用し、両段階から得られる従属サンプルを用いて、推定量の一様な推定率および漸近正規性を導出します。大規模なシミュレーション結果により、本手法が最先端の戦略よりも優れていることを示します。さらに、本枠組みを適用して、Massive Multitask Language Understandingデータセットにおいて大規模言語モデルをランキングするための人間の嗜好データを解析し、医学解剖学の知識に関する異なる大規模言語モデルの性能について洞察に富んだ結果を得ます。