正則化された中心化・強調型時間差学習

arXiv cs.AI / 2026/5/7

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、関数近似を用いたオフポリシー時間差(TD)学習における重要なトレードオフ(安定性・射影ジオメトリ・分散制御)を見直します。
  • 強調型TD(ETD)はフォローオン強調によってオフポリシーの射影ジオメトリを改善しますが、フォローオン・トレースが高分散になり不安定化し得ることが問題です。
  • 著者らは、ベルマン誤差の中心化を素朴に強調型拡張へ組み合わせると、補助的な結合が生じてETDの主要行列の正定値性を壊しうることを示します。
  • そこで、フォローオン・トレースは維持しつつ補助的な中心化の再帰のみを正則化する Regularized Emphatic Temporal-Difference Learning(RETD)を提案し、正定値性を保ちます。
  • RETDのコア行列を導出し、保守的な十分条件にもとづく収束性を証明したうえで、診断用の線形オフポリシー予測タスクで安定性向上と正則化パラメータに対する頑健性を示します。

要旨: 関数近似を伴うオフポリシー時間差分(TD)学習は、安定性、射影幾何、分散制御の間に構造的トレードオフを抱えている。強調付きTD(Emphatic TD: ETD)はフォローオン強調(follow-on emphasis)によってオフポリシーの射影幾何を改善するが、フォローオン・トレースは高分散となり得る。本研究では、ベルマン誤差のセンタリング(Bellman-error centering)を通じてこのトレードオフを再検討する。センタリングはTD誤差から共通のドリフト項を自然に取り除くが、素朴なセンタリング付きの強調拡張は、補助的な結合を導入し得て、それによりETDの主要行列(key matrix)の正定値性を破壊し得ることを示す。我々は \emph{正則化付き強調TD学習(Regularized Emphatic Temporal-Difference Learning: RETD)} を提案する。これはフォローオン・トレースを保持し、補助的なセンタリングの再帰のみを正則化するものであり、結合された主要行列の下右ブロックを \(1\) から \(1+c\) へ持ち上げることに対応する。R E T D の中核となる行列を導出し、保守的な十分な正則化条件の下で収束を証明し、診断用の線形オフポリシー予測タスク上で手法を評価する。実験の結果、RETDは素朴なセンタリング付き強調学習の不安定性を回避し、好ましい強調幾何を維持し、診断全体にわたって正則化パラメータ \(c\) のための堅牢な中間的領域を示すことが分かった。