マルチアーム・バンディットにおける報酬と誤差のトレードオフ

arXiv cs.LG / 2026/5/4

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文はマルチアーム・バンディットを対象に、各アームの平均を正確に推定することと、累積報酬を最大化することの間の緊張関係を扱います。
  • 最も多く探索されたアームほど情報量が大きくなる一方で、報酬最大化だけを追うと最良のアームに集中しやすいと主張しています。
  • 著者らは、2つの目的の間を滑らかに両立させる(補間する)アルゴリズムを提案し、後悔(regret)の保証を示します。
  • さらに、上限と下限の両方を理論的に導出し、実験によって主張を検証しています。

要旨: 多腕バンディットでは、最も探索された腕が最も情報量を持つ一方で、報酬最大化は通常、最良の腕だけを引き当てます。私たちは、腕の平均を正確に同定することと報酬を蓄積することの間のトレードオフを研究し、2つの目的の間を補間する、後悔(regret)の保証を持つアルゴリズムを提示します。さらに、上界と下界の両方を与え、実験的に検証します。