正則化された中心化・強調型時間差学習

arXiv cs.AI / 2026/5/7

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、関数近似を用いたオフポリシー時間差（TD）学習における重要なトレードオフ（安定性・射影ジオメトリ・分散制御）を見直します。
強調型TD（ETD）はフォローオン強調によってオフポリシーの射影ジオメトリを改善しますが、フォローオン・トレースが高分散になり不安定化し得ることが問題です。
著者らは、ベルマン誤差の中心化を素朴に強調型拡張へ組み合わせると、補助的な結合が生じてETDの主要行列の正定値性を壊しうることを示します。
そこで、フォローオン・トレースは維持しつつ補助的な中心化の再帰のみを正則化する Regularized Emphatic Temporal-Difference Learning（RETD）を提案し、正定値性を保ちます。
RETDのコア行列を導出し、保守的な十分条件にもとづく収束性を証明したうえで、診断用の線形オフポリシー予測タスクで安定性向上と正則化パラメータに対する頑健性を示します。

要旨: 関数近似を伴うオフポリシー時間差分（TD）学習は、安定性、射影幾何、分散制御の間に構造的トレードオフを抱えている。強調付きTD（Emphatic TD: ETD）はフォローオン強調（follow-on emphasis）によってオフポリシーの射影幾何を改善するが、フォローオン・トレースは高分散となり得る。本研究では、ベルマン誤差のセンタリング（Bellman-error centering）を通じてこのトレードオフを再検討する。センタリングはTD誤差から共通のドリフト項を自然に取り除くが、素朴なセンタリング付きの強調拡張は、補助的な結合を導入し得て、それによりETDの主要行列（key matrix）の正定値性を破壊し得ることを示す。我々は \emph{正則化付き強調TD学習（Regularized Emphatic Temporal-Difference Learning: RETD）} を提案する。これはフォローオン・トレースを保持し、補助的なセンタリングの再帰のみを正則化するものであり、結合された主要行列の下右ブロックを \(1\) から \(1+c\) へ持ち上げることに対応する。R E T D の中核となる行列を導出し、保守的な十分な正則化条件の下で収束を証明し、診断用の線形オフポリシー予測タスク上で手法を評価する。実験の結果、RETDは素朴なセンタリング付き強調学習の不安定性を回避し、好ましい強調幾何を維持し、診断全体にわたって正則化パラメータ \(c\) のための堅牢な中間的領域を示すことが分かった。