AI Navigate

マルコフ性文脈線形バンドに対するリダクションアルゴリズム

arXiv cs.LG / 2026/3/16

📰 ニュースModels & Research

要点

  • 定常な代理行動集合と遅延更新スキームを導入することで、i.i.d. な文脈からマルコフ性文脈線形バンドへと縮約フレームワークを一般化し、非定常な文脈分布によるバイアスを抑制する。
  • 本論文は、高確率の後悔境界を、基礎となる線形バンディット・オラクルの境界と一致する形で証明する。これらは一様幾何エルゴード性の下でのみ、マルコフ連鎖の混合時間への依存が低次の項にとどまる。
  • 未知の遷移分布に対して段階的なアルゴリズムを提供し、代理写像をオンラインで学習する。これにより、完全なモデル知識を持たずに実用的な展開が可能になる。
  • マルコフ性文脈の下で標準的な線形バンディット手法の利用を可能にすることにより、モデルの誤設定と敵対的汚染に対する成熟した解析を活用し、有限時間保証を改善する。
  • 本研究の成果は、文脈の利用可能性が時間的に相関する応用に関連し、文脈バンディットの適用範囲を現実的な非 i.i.d. 設定へ拡張する。

概要: 最近の研究では、文脈が i.i.d. に抽出される場合、線形文脈バンディットは単一文脈線形バンディットへ還元できることが示されている。この「文脈は安価である」という視点は非常に有利であり、有限時間解析をより鋭く行えるとともに、誤指定や敵対的汚染に関する線形バンディット研究の成熟した手法を活用できる。時間的に相関した可用性を持つ応用に動機づけられ、我々はこの視点を外因性のマルコフ連鎖によって行動集合が進化するマルコフ過程の文脈線形バンディットへ拡張します。私たちの主な貢献は、一様幾何遍歴性の下で適用される還元です。標準的な線形バンディットオラクルを用いて問題を解くための定常な代理行動集合を構築し、非定常な条件付き文脈分布によって生じるバイアスを制御する遅延更新スキームを採用します。さらに、未知の遷移分布のための段階的アルゴリズムをオンラインで代理写像を学習することを提供します。いずれの設定においても、基礎となる線形バンディットオラクルと一致する高確率の最悪ケース後悔境界を得ることができ、混合時間に関しては低次の依存性のみを持ちます。