不完全な文脈での学習：事前学習による補完を用いた線形文脈付きバンディット

arXiv stat.ML / 2026/4/3

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、文脈が部分的にしか観測されない場合におけるオンライン線形文脈付きバンディットを扱う。文脈は複雑であったり非定常であったりしうることを想定し、適応的介入なしに収集された第2の完全観測（補助）データセットを用いる。
補助データで事前学習したモデルを利用し、オンライン意思決定中に欠損した文脈特徴を補完（impute）する手法として、PULSE-UCBを提案する。
著者らは、後悔（regret）の上界を導出し、それが通常の文脈付きバンディットの後悔項に加えて、事前補完の質（不確実性／精度）を反映する追加項に分解されることを示す。
i.i.d. 設定において、欠損特徴が Hölder 平滑である場合、PULSE-UCB は一致する下界とともに、ほぼ最適な性能に到達できることが示される。これにより、事前補完が最も有益となる条件が明確化される。
得られた結果は、予測した文脈における誤りが意思決定の質をどの程度低下させるのか、また下流の学習を改善するためにどれだけの過去の補助データが必要かについて定量的な指針を与える。

Abstract

大規模な事前学習済みモデルの台頭により、低コストで予測的または合成的な特徴を生成することが可能になり、このようなサロゲート（代理）予測を下流の意思決定にどのように組み込むかという問題が生じている。私たちは、文脈が複雑で非定常であり、かつ部分的にしか観測されない可能性があるオンライン線形文脈バンディットの設定で、この問題を研究する。バンディットのデータに加えて、完全に観測された文脈を含む補助データセットにアクセスできると仮定する。これは実務において一般的であり、そのようなデータは適応的な介入なしに収集されるからである。私たちは、補助データ上で学習された事前学習済みモデルを活用して、オンラインでの意思決定中に欠損する特徴を補完（impute）するアルゴリズム PULSE-UCB を提案する。私たちは、後悔（regret）の保証を、標準的なバンディット項に加えて、事前学習済みモデルの品質を反映する追加の成分へと分解する形で示す。H"older-平滑な欠損特徴を仮定する i.i.d.（独立同分布）の文脈ケースでは、PULSE-UCB は整合する下界によって裏付けられた、ほぼ最適な性能を達成する。本研究の結果は、予測された文脈における不確実性が意思決定の質にどの程度影響するのか、また下流の学習を改善するのにどれほどの過去データが必要かを定量化する。