不確実な遅延と敵対的な汚染下における、事後提供コンテキスト付きロバスト線形デュエリング・バンディット
arXiv cs.LG / 2026/5/5
📰 ニュースModels & Research
要点
- 本論文は、事後提供コンテキスト、未知の遅延を伴うフィードバック、そして総汚染予算 C による敵対的汚染が同時に存在する、線形デュエリング・バンディットを扱う。
- 事前情報から事後コンテキストを学習して近似するアルゴリズムを提案し、さらに汚染された観測と遅延された観測の双方の影響を同時に抑えるために、特徴ベクトルをクリップする適応的重み付け戦略を用いる。
- 標準的な正則条件と、事後コンテキスト写像のパラメトリックな仮定のもとで、遅延のレジームに依存しない(delay-regime-agnostic)後悔(regret)の上界 ~O(d(√T + C + D)) を理論的に厳密に示す。ここで d は特徴次元の総和、D は遅延の複雑さを表す。
- 重要な洞察として、汚染コストと遅延コストの関係が加法的であることを明らかにし、従来研究で見られがちな乗法的な悪化を避けられる点を示す。
- また、事後コンテキストがない場合の敵対的遅延に対して、上界とほぼ一致する下界を与え、√d 因子を除けば本手法が実質的にタイトであることを示す。




