マルチタスク・線形バンディットにおける共有表現の学習
arXiv cs.LG / 2026/4/2
📰 ニュース
要点
- 本論文は、関連するT個のタスクが共通の低次元潜在表現を共有するマルチタスク線形バンディットを研究する。ここで共有部分空間の次元rは、dやTよりもはるかに小さい。
- 共有モデルを推定するための二段階パイプラインを用いる、新しいOFULスタイルのアルゴリズムを提案する。具体的には、探索フェーズ、スペクトル初期化による推定、そして低ランク構造に基づく信頼集合を構築してOFUL学習を行う。
- 著者らは、構築した信頼集合が真の報酬ベクトルを高い確率で包含することを示す理論結果を提示し、さらに累積レグレットの上界を導出する。
- 提案手法はレグレットがO(√(drNT))となり、各タスクを独立に扱う場合のO(dT√N)と比べて大幅な改善をもたらすことが議論されている。
- 数値シミュレーションが、さまざまな問題設定における性能を経験的に検証するために含まれている。