要旨:前向き-後向き(FB)表現は、低ランク分解を課すことにより、連続空間での後継表現(SR)を学習するための強力な枠組みを提供します。しかし、連続環境の高ランク遷移ダイナミクスと FB アーキテクチャの低ランクのボトルネックとの間には、根本的なスペクトル的不一致がしばしば存在し、正確な低ランク表現学習を難しくします。本研究では、この不整合を緩和する機構として時間的抽象化を分析します。遷移演算子のスペクトル特性を特徴づけることにより、時間的抽象化は高周波スペクトル成分を抑制するローパスフィルタとして機能することを示します。この抑制は、誘導された SR の実効ランクを低下させる一方で、得られる値関数誤差に対する形式的な境界を保持します。経験的には、この整合性が安定した FB 学習の重要な要因であることを示します。特に割引因子が高い場合、ブートストラップが誤差を生じやすくなります。我々の結果は、時間的抽象化を、基礎となる MDP のスペクトル構造を形作り、連続制御における長期的な表現を効果的に可能にする原理的な機構として特定します。)
時間的抽象化を介した前方-後方表現におけるスペクトル整合
arXiv cs.LG / 2026/3/23
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文は、時間的抽象化が遷移演算子のスペクトルに対してローパスフィルタとして作用し、高ランクのダイナミクスと低ランクの前方-後方 (FB) アーキテクチャとの不一致を緩和することを示している。
- 生じる価値関数誤差の厳密な上界を導出し、スペクトルの単純化が提案された枠組みの下で精度を維持することを示している。
- 実証的な結果は、時間的抽象化が前方-後方学習の安定性を向上させることを示しており、特に割引因子が高い場合にはブートストラップによる推定が誤差を生じやすい。
- 本研究の知見は、時間的抽象化をマルコフ決定過程(MDP)のスペクトル特性を形作る原理的なメカニズムとして示唆しており、連続制御における長期的な表現をより効果的に可能にする。