(少しの)非定常性がもたらすサティスファイシング・リグレット最小化の危険性について

arXiv stat.ML / 2026/4/28

💬 オピニオンModels & Research

要点

  • 本論文は、$K$-腕バンディットにおけるサティスファイシング・リグレット最小化が、区分的に定常な非定常環境($L$個の定常区間)でどう振る舞うかを分析している。
  • 実現可能(realizable)かつ区分的に定常な設定で($L\ge2$)、最適なサティスファイシング・リグレットは $\Theta(L\log T)$ になることを示し、わずかな非定常性でも後悔が時間範囲 $T$ とともに増大せざるを得ないと結論づけている。
  • これは、完全に定常な場合($L=1$)では実現可能性の下で $T$ に依存しない $\Theta(1)$ のサティスファイシング・リグレットが達成できるという結果と鋭く対照的である。
  • 著者らは、非定常バンディット向けに調整した新しいFanoベースの解析枠組みを提案しており、「post-interaction reference(相互作用後の参照)」構成により、受動推定の古典的Fano手法や定常バンディットの最近のインタラクティブFano手法を拡張している。
  • さらに、サティスファイシング・リグレットを定数に保てる特別なレジームも議論している。

\emph{事後相互作用参照} 構成を通じて非定常バンディット向けに特化した新しい Fano ベースの枠組みです。この枠組みは、受動的推定に対する古典的な Fano 手法、および定常バンディットに対する最近の相互作用型 Fano 技術を厳密に拡張します。補完として、満足化損失が再び定数となり得る特別なレジームについても議論します。