Erdős–Rényi型サイド観測グラフによるオンライン学習

arXiv stat.ML / 2026/4/29

📰 ニュースModels & Research

要点

  • 本論文は、サイド観測グラフにより非選択の腕の損失を観測できる状況を扱う、敵対的なマルチアーム・バンディット学習を研究しています。
  • 非選択の各腕は、学習者の行動に依存せず独立に、一定の未知確率 r で損失を開示すると仮定し、r の異なる範囲に対応する2つのアルゴリズムを提案します。
  • r ≥ (log T)/(2N) の場合、最初のアルゴリズムは N 本の腕を持つ T ラウンド後に期待レグレット O(√((T/r) log N)) を達成します。
  • r が小さいときは、2つ目のアルゴリズムにより期待レグレット O(√((T/r) log (N+T))) が得られ、さらに r の適用範囲を判定する推定手順も示されています。
  • 与えられたレグレット上界は、事前に r を知ることが許された任意のアルゴリズムの最良性能に対して、対数因子の範囲で近いことが示されています。

Abstract

本稿では、学習者が実際に選択したアーム以外の複数のアームの損失も観測できる、敵対的なマルチアームバンディット問題を考えます。各非選択アームは、互いに独立かつ学習者の行動やそれ以外の要因に依存せず、固定ではあるが未知の確率 r でその損失を明らかにするとします。異なる r の範囲に対して機能する2つのアルゴリズムを提案します。バンディット問題で N 個のアームを T ラウンド行った後、最初のアルゴリズムの期待後悔(regret)は、r\ge( \log T)/(2N) のとき O(\sqrt{(T /r) \log N }) で抑えられることを示します。一方で2つ目のアルゴリズムは、より小さい r に対して O(\sqrt{(T/r) \log (N+T)}) の後悔を達成します。また、~r の範囲を決定するための迅速な推定手順も提示します。これらの上界はいずれも、たとえアルゴリズムが~r を知っていることが許されていても達成可能な最良の性能の、対数因子の範囲内に収まっています。