広告

教師なし行動圧縮:状態占有マッチングにより低次元のポリシーマニホールドを学習する

arXiv cs.LG / 2026/3/31

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、深層強化学習におけるサンプル非効率性に対し、低次元の潜在空間から圧縮されたパラメータマニホールドへ写像するポリシー圧縮手法を提案することで取り組む。
  • 従来の行動ベースのポリシー圧縮(APC)は、再構成損失として即時の行動マッチングを用いている点により限界があり、それが連続的な行動類似性の不適切な代理(プロキシ)となってしまうと主張する。
  • 著者らは、行動レベルのマッチングを、長い時間域にわたる占有(状態空間のカバレッジ)へ置き換える占有ベースのポリシー圧縮(OPC)を導入し、真の混合占有分布と再構成した混合占有分布の間の発散(ダイバージェンス)を最小化することで実現する。
  • OPCは、2つの主要な構成要素によって改善される。すなわち、多様で、ポリシー固有のサンプルが得られるための情報理論的なデータセット生成と、機能的類似性に整合した完全に微分可能な圧縮目的である。
  • 複数の連続制御ベンチマークでの実験により、OPCが元のポリシーの表現力を大きく保持しつつ、行動にわたる一般化性能をより良く達成できることを示す。

要旨: 深層強化学習(DRL)は、サンプル効率が低いことが広く認識されている。これは、部分的には、方策パラメータ空間に内在する高次元性と実質的な機能的冗長性に起因する制約である。最近提案された枠組みとして、我々は Action-based Policy Compression(APC)と呼ぶものがあり、学習された生成写像 g:mathcal Z to Theta を用いてパラメータ空間 Theta を低次元の潜在マニフォールド mathcal Z へ圧縮することでこの問題を緩和する。しかし、その性能は、再構成損失として即時の行動一致を用いることに強く制約されており、これは行動の類似性を表す近視眼的な代理指標である。その結果、連続した意思決定にまたがって誤差が累積し、深刻な問題に至る。 このボトルネックを克服するために、我々は Occupancy-based Policy Compression(OPC)を導入する。これは、即時の行動一致から長期ホライズンの状態空間カバレッジへと行動表現の焦点を移すことで、APCを強化するものである。具体的には、次の2つの主要な改善を提案する: (1)情報理論に基づく一意性指標を用いてデータセット生成を厳選し、多様な方策の集団を提供すること、(2)真の混合占有(mixture occupancy)分布と再構成された混合占有分布の間の発散を直接最小化する、完全に微分可能な圧縮目的関数を提案すること。これらの修正により、生成モデルは真の機能的類似性の周りに潜在空間を組織化することが強制される。その結果、元のパラメータ空間が持つ表現力の大部分を維持しつつ、幅広い行動に対して一般化できる潜在表現が促進される。最後に、我々は複数の連続制御ベンチマークにわたって、提案内容の利点を実験的に検証する。

広告