機械学習生成の代理報酬を用いたマルチアーム・バンディット

arXiv stat.ML / 2026/4/23

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、事前に入手できる側情報を事前学習済み機械学習モデルで「代理報酬（surrogate rewards）」へ変換し、オンラインで報酬データを収集しにくいという課題に対処する新しいマルチアーム・バンディット設定を扱っています。
予測に基づく報酬と不確実性を組み合わせるML支援付きUCB（MLA-UCB）アルゴリズムを提案し、オフライン段階での外挿により代理報酬が持つバイアスの影響を抑えることを狙います。
予測報酬と真の報酬が同時ガウス分布に従うとき、代理報酬の平均が真の平均と完全にずれている場合でも、累積リグレットが改善され、広いクラスの方策の中で漸近的に最適であることを証明しています。
真報酬と代理報酬の共分散行列に関する事前知識を不要とし、さらにバッチ報酬のバンディット問題（非ガウスの可能性あり）へ拡張して、計算可能な信頼区間とリグレット保証も導出しています。
シミュレーションおよび言語モデル選択や動画レコメンドといった実世界の検証では、代理報酬サンプル数や相関が適度な条件下で一貫して（多くの場合大きく）リグレットが減少することを示しています。

要旨：マルチアームド・バンディット（MAB）は、不確実性下での逐次意思決定のための広く採用された枠組みである。従来のバンディット手法は、オンラインデータのみに依存するが、これはアームが能動的に引かれるオンライン段階で収集する必要があるため、得られにくい傾向にある。しかし多くの実運用の状況では、いかなるアームも投入する前に、過去のユーザの共変量などのリッチな補助データが事前に利用可能である。我々は、事前学習済みの機械学習（ML）モデルを用いて、サイド情報および過去データから mph{代理（サロゲート）報酬} を構成する、MABの新しい設定を導入する。この設定における主要な課題は、真の報酬データは通常オフライン段階では利用できないため、MLの予測が外挿に強く依存せざるを得ず、その結果、代理報酬が大きなバイアスを示し得ることである。この問題に対処するために、機械学習支援付き上側信頼限界（Machine Learning-Assisted Upper Confidence Bound: MLA-UCB）アルゴリズムを提案する。これは、いかなる報酬予測モデルおよびいかなる形式の補助データにも適用可能である。予測報酬と真の報酬が同時にガウス分布に従う場合には、代理報酬の平均が真の平均報酬と完全に整合していないような場合でも、累積レグレットが理論的に改善され、さらに広範なクラスの方策の間で漸近的最適性を達成することを示す。注目すべき点として、本手法は、真の報酬と代理報酬の間の共分散行列に関する事前知識を一切必要としない。さらに、各アームの引き込みが観測と報酬のバッチを生成し、報酬がガウスでない可能性がある、バッチ型報酬MAB問題へと本手法を拡張し、計算可能な信頼区間と、古典的なUCBアルゴリズムを上回るレグレット保証を導出する。最後に、ガウスおよびML生成の代理報酬の両方を用いた大規模なシミュレーションに加えて、言語モデル選択および動画レコメンドに関する実世界の研究を行った結果、適度なオフライン代理サンプルサイズと相関において、レグレットの一貫した、そして多くの場合大きな削減が示される。