Abstract
強化学習による人間のフィードバック(RLHF)は、大規模モデルを人間の嗜好に整合させるための人工知能における重要なパラダイムとなっています。本論文では、動的な文脈情報に基づく人間の嗜好データを用いて、最適モデルに関するオンラインの意思決定と統計的推論を同時に行うための新しい統計的枠組みを提案します。提案手法は、最適な損失(regret)上界と推定量の漸近分布の両方を達成する効率的な意思決定戦略を導入します。RLHFにおける主要な課題は、動的な文脈を伴う従属的なオンラインの人間の嗜好結果を扱うことです。これに対処するため、方法論の側面では、epsilon-greedyから開始して利用(exploitations)へ進む2段階アルゴリズムを提案します。理論の側面では、反集中不等式と行列マルチンゲールの集中技術をそれぞれ適用し、両段階から得られる従属サンプルを用いて、推定量の一様な推定率および漸近正規性を導出します。大規模なシミュレーション結果により、本手法が最先端の戦略よりも優れていることを示します。さらに、本枠組みを適用して、Massive Multitask Language Understandingデータセットにおいて大規模言語モデルをランキングするための人間の嗜好データを解析し、医学解剖学の知識に関する異なる大規模言語モデルの性能について洞察に富んだ結果を得ます。