ルーティングより表現を:マルチタイムスケールPPOにおけるサロゲート・ハッキングの克服

arXiv cs.LG / 2026/4/16

💬 オピニオン

要点

  • 本論文は強化学習における時間的クレジット割当を扱い、マルチタイムスケールPPOで割引率を単純に複数組み合わせるだけでは、サロゲート目的のハッキングや近視眼的な退化など、深刻なアルゴリズム上の病理が生じうることを見出す。

要旨: 強化学習における時間的クレジット割当は、長らく中核的な課題であった。神経生物学におけるドーパミン系の多時尺度エンコーディングに触発され、短期の応答と長期の計画のバランスを取るために、Proximal Policy Optimization(PPO)のようなActor-Criticアーキテクチャへ複数の割引因子を導入することを目指した最近の研究がある。しかし、本論文は、複雑な遅延報酬タスクにおいて多時尺度の信号を無分別に統合すると、重大なアルゴリズム的病理が生じ得ることを明らかにする。私たちは体系的に、時間的注意ルーティング機構をポリシーグラディエントへ曝すと代理目的のハッキングが起きる一方で、勾配なしの不確実性重み付けを採用すると不可逆的な近視的退化が引き起こされることを示す。これを私たちは「時間的不確実性のパラドックス」と呼ぶ。これらの問題に対処するため、Target Decoupling(目標デカップリング)アーキテクチャを提案する。Critic側では、多時尺度予測を維持して補助的表現学習を強制する一方で、Actor側では短期の信号を厳密に分離し、長期の優位性(advantages)のみに基づいてポリシーを更新する。LunarLander-v2環境において、複数の独立したランダムシードにわたる厳密な実験的評価により、提案アーキテクチャが統計的に有意な性能向上を達成することを示す。ハイパーパラメータの調整(ハッキング)に依存することなく、最小の分散で一貫して「Environment Solved(環境を解けた)」の閾値を上回り、ポリシーの崩壊を完全に排除し、単一時尺度のベースラインを罠にするホバリングの局所最適から脱出する。