要旨: 多腕バンディットでは、最も探索された腕が最も情報量を持つ一方で、報酬最大化は通常、最良の腕だけを引き当てます。私たちは、腕の平均を正確に同定することと報酬を蓄積することの間のトレードオフを研究し、2つの目的の間を補間する、後悔(regret)の保証を持つアルゴリズムを提示します。さらに、上界と下界の両方を与え、実験的に検証します。
マルチアーム・バンディットにおける報酬と誤差のトレードオフ
arXiv cs.LG / 2026/5/4
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文はマルチアーム・バンディットを対象に、各アームの平均を正確に推定することと、累積報酬を最大化することの間の緊張関係を扱います。
- 最も多く探索されたアームほど情報量が大きくなる一方で、報酬最大化だけを追うと最良のアームに集中しやすいと主張しています。
- 著者らは、2つの目的の間を滑らかに両立させる(補間する)アルゴリズムを提案し、後悔(regret)の保証を示します。
- さらに、上限と下限の両方を理論的に導出し、実験によって主張を検証しています。



