\emph{事後相互作用参照} 構成を通じて非定常バンディット向けに特化した新しい Fano ベースの枠組みです。この枠組みは、受動的推定に対する古典的な Fano 手法、および定常バンディットに対する最近の相互作用型 Fano 技術を厳密に拡張します。補完として、満足化損失が再び定数となり得る特別なレジームについても議論します。
(少しの)非定常性がもたらすサティスファイシング・リグレット最小化の危険性について
arXiv stat.ML / 2026/4/28
💬 オピニオンModels & Research
要点
- 本論文は、$K$-腕バンディットにおけるサティスファイシング・リグレット最小化が、区分的に定常な非定常環境($L$個の定常区間)でどう振る舞うかを分析している。
- 実現可能(realizable)かつ区分的に定常な設定で($L\ge2$)、最適なサティスファイシング・リグレットは $\Theta(L\log T)$ になることを示し、わずかな非定常性でも後悔が時間範囲 $T$ とともに増大せざるを得ないと結論づけている。
- これは、完全に定常な場合($L=1$)では実現可能性の下で $T$ に依存しない $\Theta(1)$ のサティスファイシング・リグレットが達成できるという結果と鋭く対照的である。
- 著者らは、非定常バンディット向けに調整した新しいFanoベースの解析枠組みを提案しており、「post-interaction reference(相互作用後の参照)」構成により、受動推定の古典的Fano手法や定常バンディットの最近のインタラクティブFano手法を拡張している。
- さらに、サティスファイシング・リグレットを定数に保てる特別なレジームも議論している。




