サイド観測付きバンディット問題における暗黙の探索による効率的学習

arXiv stat.ML / 2026/4/28

💬 オピニオンModels & Research

要点

  • 本論文は、部分観測に基づくオンライン学習を扱い、そのフィードバックが完全情報学習とバンディット型の間に位置する状況(例:自分の損失に加えて一部の他アクションの損失も観測できる)をモデル化しています。
  • 観測システムを事前に把握していなくても、アクション選択の時点でそれを知らなくてよいにもかかわらず、後悔(regret)に関してほぼ最適な保証を持つ最初のアルゴリズムを提案しています。
  • さらに、半バンディットと完全フィードバックの間の情報を得るオンライン組合せ最適化向けの新しい部分情報設定も定義しています。
  • 当該設定では予測を常に効率良く計算できないため、計算効率を常に満たす別アルゴリズムを提案し、チューニング機構を少し複雑にする代わりに同様の性質を維持します。
  • 両アルゴリズムは「暗黙の探索(implicit exploration)」と呼ばれる新しい探索戦略に依拠しており、これが計算面でも情報理論面でも従来の探索戦略より効率的であることを示しています。

アブストラクト: 我々は、学習者に伝えられる情報が完全情報とバンディットフィードバックの間にある状況を捉える、部分観測性モデルの下でのオンライン学習問題を考察する。最も単純な変種では、学習者は自身の損失に加えて、いくつかの他の行動の損失も観測できると仮定する。明らかにされる損失は、学習者の行動と、環境によって選ばれる有向観測システムに依存する。この設定に対して、行動を選択する前に観測システムを知る必要がないにもかかわらず、ほぼ最適な後悔(regret)の保証を享受する最初のアルゴリズムを提案する。同様の流れで、学習者が受け取るフィードバックがセミバンディットと完全フィードバックの間にある、オンライン組合せ最適化問題をモデル化する新しい部分情報の設定も定義する。我々の最初のアルゴリズムの予測は、この設定では常に効率よく計算できないため、わずかに複雑な調整メカニズムを代償として、同様の性質を持ちつつ、常に計算効率が良いという利点を備えた別のアルゴリズムを提案する。両アルゴリズムは、implicit exploration(暗黙的探索)と呼ばれる新しい探索戦略に依拠しており、この問題に対してこれまで研究されてきた探索戦略よりも、計算面でも情報理論面でもより効率的であることが示される。