不完全な文脈での学習:事前学習による補完を用いた線形文脈付きバンディット
arXiv stat.ML / 2026/4/3
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、文脈が部分的にしか観測されない場合におけるオンライン線形文脈付きバンディットを扱う。文脈は複雑であったり非定常であったりしうることを想定し、適応的介入なしに収集された第2の完全観測(補助)データセットを用いる。
- 補助データで事前学習したモデルを利用し、オンライン意思決定中に欠損した文脈特徴を補完(impute)する手法として、PULSE-UCBを提案する。
- 著者らは、後悔(regret)の上界を導出し、それが通常の文脈付きバンディットの後悔項に加えて、事前補完の質(不確実性/精度)を反映する追加項に分解されることを示す。
- i.i.d. 設定において、欠損特徴が Hölder 平滑である場合、PULSE-UCB は一致する下界とともに、ほぼ最適な性能に到達できることが示される。これにより、事前補完が最も有益となる条件が明確化される。
- 得られた結果は、予測した文脈における誤りが意思決定の質をどの程度低下させるのか、また下流の学習を改善するためにどれだけの過去の補助データが必要かについて定量的な指針を与える。




