広告

フルグラディエント後継表現(Successor Feature)

arXiv cs.LG / 2026/4/2

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、標準的な Successor Features(SF)学習における不安定性を扱う。SF学習は通常、準グラディエントTD更新を用いており、特にマルチタスク転移の設定では、非線形関数近似のもとで強い収束保証が欠けている。
  • 本論文では、FG-SFRQL(Full-Gradient Successor Feature Representations Q-Learning)を提案する。これは準グラディエント近似に頼るのではなく、完全な平均二乗ベルマン誤差を最小化することで後継表現を学習する。
  • FG-SFRQLは、オンラインネットワークとターゲットネットワークの双方におけるパラメータに対する勾配を計算し、Generalized Policy Improvement(GPI)に向けた学習済み特徴表現の安定化と品質向上を目指す。
  • 著者らはFG-SFRQLのほぼ確実な収束に関する理論的な証明を提示し、離散・連続制御の双方において、準グラディエントのベースラインに比べてサンプル効率および転移性能の向上を実験的に報告している。

広告