Abstract
マルチタスク表現学習(MTRL)は、関連するタスク間で共有された潜在表現を学習し、協調的な学習を促進することで、学習全体の効率を向上させるアプローチである。本論文では、複数のタスクが同一の状態・行動空間および遷移確率を持ちつつ報酬のみが異なる、マルチタスク強化学習(RL)に対するMTRLを研究する。報酬関数と遷移ダイナミクスが次元 d の線形特徴埋め込みを許す T 個の線形マルコフ決定過程(MDP)を考える。タスク間の関連性は、報酬行列における低ランク構造によって表現される。複数のRLタスクにまたがって共有表現を学習することは、誤差が時間的に進行することにつながる、データの複雑でかつ方策依存の性質のために難しい。我々のアプローチは、まずデータ収集方策を学習するために、報酬なし強化学習の枠組みを採用する。この方策は、その後に未知の報酬行列を推定するための探索戦略に情報を与える。重要な点として、このように設計された方策で収集されたデータにより、正確な推定が可能になり、最終的に準最適な方策の学習を支える。ガウス的特徴、非無秩序条件、あるいは最適解へのアクセスといった、制約の強い仮定に依存する既存手法とは異なり、本論文ではRL設定で遭遇するより一般的な特徴分布のもとで動作する、低ランク行列推定手法を提案する。理論解析により、これら緩和された仮定のもとでも、正確な低ランク行列の復元が達成可能であることを示し、表現誤差とサンプル複雑性の関係を特徴付ける。学習した表現を活用して、準最適方策を構成し、後悔(レグレット)の上界を証明する。実験結果は、本手法が有限データから、頑健な共有表現およびタスクのダイナミクスを効果的に学習できることを示している。