確率的マルチ目的バンディットは単一目的バンディットより難しいのか?

arXiv cs.LG / 2026/4/9

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は確率的マルチ目的バンディットを研究し、追加されたパレート・リグレットの複雑さによって、それらが単一目的バンディットより根本的に難しくなるのかを問いかける。
  • 確率的な設定では、パレート・リグレットは最大の劣適性ギャップ g^† によって支配されることを示し、Ω(K log T / g^†) のスケーリングと、この量に対して最適な依存関係を与える。
  • 著者らは新しいアルゴリズムを提案し、パレート・リグレットが O(K log T / g^†) のオーダーで達成できることを示し、論文の枠組みにおいて最適性を確立する。
  • 手法は、アーム選択と目的次元の両方に対して、不確実性の評価を二層(上側/下側の信頼区間)で入れ子に行う。具体的には、トップツー・レーシングと、不確実性に基づく貪欲則による次元選択を組み合わせる。
  • 数値実験を報告し、理論的なリグレット保証を確認するとともに、ベンチマーク手法に対して大幅な改善が見られることを示す。

要旨: 多目的バンディットは、その広範な適用可能性と数学的な優美さから、近年ますます注目を集めている。ここでは各アームの報酬がスカラーではなく多次元ベクトルである。これにより、自然にパレート順序関係とパレート損失(Pareto regret)が導入される。この分野における長年の未解決問題は、この追加された複雑さによって性能の最適化が本質的に難しくなるのかどうかである。最近の驚くべき結果として、敵対的(adversarial)設定ではパレート損失が古典的な損失(classical regret)より大きくならないことが示されている。しかし、損失概念が異なる確率的(stochastic)設定では、その様子は依然として不明である。実際、既存の研究では、確率的場合におけるパレート損失が次元数とともに増大すると示唆されている。この、議論を呼びつつも微妙な現象が、私たちの中心的な問いを動機づける:
\emph{多目的バンディットは実際に単目的のものより難しいのだろうか?}
私たちはこの問いに完全に答える。確率的設定において、パレート損失は実際には最大の劣性ギャップ \(g^\dagger\) によって支配され、したがって \(\Omega(\frac{K\log T}{g^\dagger})\) の最小限界(marginal regret)によって決まることを示す。さらに、パレート損失が \(O(\frac{K\log T}{g^\dagger})\) のオーダーを達成する新しいアルゴリズムを開発し、それゆえ最適であることを保証する。このアルゴリズムは、上側および下側の信頼区間推定子を用いて、アームと目的の両方に対するネストされた二層の不確実性定量化を活用する。具体的には、アーム選択にはトップツー・レーシング戦略を用い、次元選択には不確実性に基づく貪欲則を組み合わせる。これらの構成要素が、二つの層にまたがって探索と活用のバランスをとる。加えて、提案アルゴリズムを検証するために包括的な数値実験を行い、望ましい損失保証と、ベンチマーク手法に対する顕著な改善を示す。