特徴量が豊富で非定常なバンディット問題に対する実用的アルゴリズム

arXiv cs.LG / 2026/3/18

📰 ニュースTools & Practical UsageModels & Research

要点

  • 本論文は、密なアーム特徴量、非線形の報酬関数、時間変動かつ相関を持つ報酬分布に対応できるように文脈付きバンディットを一般化し、推奨などの実務タスクへの適用範囲を広げる。
  • ベルヌーイバンディット向けには、埋め込み空間上の改良型Nadaraya-Watson推定量と、再訓練を必要としないオンライン Thompson Sampling を組み合わせて、条件付き結合型文脈C3 Thompson Sampling(C3TS)を導入する。
  • 実証結果は、C3TS が競合アルゴリズムと比較して、4つの OpenML の表形式データセットで平均累積後悔を5.7%低減し、Microsoft News Dataset (MIND) ではクリック数の相対的な増加を12.4%達成したことを示している。
  • このアプローチは実世界のアプリケーションにおけるオンライン学習の実用性を強調し、オフラインでの再訓練を要さずにより高い性能を実現できるようにする。

要約: 文脈付きバンディットは、多くの実用的な問題で非常に有用です。私たちは、以下を組み合わせた、より現実的な問題を考案することで、一歩先へ進みます:(1)密なアーム特徴を持つ文脈付きバンディット、(2)非線形の報酬関数、(3)報酬分布が時間とともに変化する一方で、相関の程度は維持される、相関を持つバンディットの一般化。 この定式化は、推奨タスクなど、より広い応用領域に適用可能です。
この問題を解くために、ベルヌーイバンディットのための条件付き結合文脈C3トンプソン採択を導入します。 埋め込み空間上の改良されたNadaraya-Watson推定量と、再訓練を必要とせずオンライン学習を可能にするトンプソン採択を組み合わせています。 実証的な結果は、C3が次善のアルゴリズムより平均累積後悔を5.7%低く上回り、4つのOpenML表形式データセットにおいて他のアルゴリズムと比較しており、またMicrosoft News Dataset (MIND) では12.4%のクリック率向上を示しました。