潜在状態ダイナミクスを伴う文脈付きバンディットを扱うための直接的アプローチ

arXiv stat.ML / 2026/4/10

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、文脈と報酬が有限の隠れマルコフ連鎖（HMM）に従って変化する、有限個の腕を持つ線形文脈付きバンディット問題を再検討する。
著者らは、報酬が潜在状態そのものではなく事後状態確率に依存するという単純化を用いて、この問題を線形文脈付きバンディットに帰着させた先行研究を批判する。
著者らは「直接的アプローチ」を提案し、観測された文脈に加えて報酬が潜在状態に依存する形でモデル化することで、文脈付きバンディットの自然な定式化により密接に整合させる。
さらに、HMMのパラメータをオンラインで推定する完全適応型の戦略を構築し、より強い高確率の後悔（regret）境界を証明する。
得られる後悔境界は、HMMパラメータ推定に必要な範囲を除き、報酬関数の詳細への依存を回避し、複雑な依存関係を伴って期待値の境界のみを与えていた先行解析より改善している。

日経XTECH

日経XTECH

Reddit r/LocalLLaMA

Reddit r/artificial

Dev.to