広告

マルチタスク・線形バンディットにおける共有表現の学習

arXiv cs.LG / 2026/4/2

📰 ニュース

要点

  • 本論文は、関連するT個のタスクが共通の低次元潜在表現を共有するマルチタスク線形バンディットを研究する。ここで共有部分空間の次元rは、dやTよりもはるかに小さい。
  • 共有モデルを推定するための二段階パイプラインを用いる、新しいOFULスタイルのアルゴリズムを提案する。具体的には、探索フェーズ、スペクトル初期化による推定、そして低ランク構造に基づく信頼集合を構築してOFUL学習を行う。
  • 著者らは、構築した信頼集合が真の報酬ベクトルを高い確率で包含することを示す理論結果を提示し、さらに累積レグレットの上界を導出する。
  • 提案手法はレグレットがO(√(drNT))となり、各タスクを独立に扱う場合のO(dT√N)と比べて大幅な改善をもたらすことが議論されている。
  • 数値シミュレーションが、さまざまな問題設定における性能を経験的に検証するために含まれている。

Abstract

マルチタスク表現学習は、関連するタスク間で共有の潜在表現を学習し、知識の転移を促進するとともに、サンプル効率を向上させるためのアプローチである。本論文では、線形バンディットにおけるマルチタスク表現学習のための新しい手法を提案する。各特徴次元がdであるT個の同時並行する線形バンディット・タスクを考え、それらが共通の潜在表現(次元はr 10 2 min{d,T}$ よりも十分小さい)を共有する状況を想定することで、背後にある関連性を捉える。我々は、共有された低ランク表現を活用することで、サンプル効率の良い方法で意思決定を改善する、新しい Optimism in the Face of Uncertainty Linear(OFUL)アルゴリズムを提案する。提案手法はまず探索フェーズを通じてデータを収集し、スペクトラル・イニシャライゼーションによって共有モデルを推定し、その後、新たに構築した信頼集合上でOFULに基づく学習を行う。我々は信頼集合に関する理論的保証を与え、未知の報酬ベクトルが高い確率で信頼集合の中に含まれることを証明する。累積リグレットの上界を導出し、提案手法が     \tilde{O}(\sqrt{drNT}) を達成することを示す。これはT個のタスクをそれぞれ独立に解くことに比べて大幅な改善であり、リグレットは   \tilde{O}(dT\sqrt{N}) となる。さらに、異なる問題サイズに対して数値シミュレーションを行い、提案手法の性能を検証した。

広告
マルチタスク・線形バンディットにおける共有表現の学習 | AI Navigate