一貫性ポリシー学習を伴う注意(サリエンシー)誘導表現による視覚の教師なし強化学習

arXiv cs.CV / 2026/4/8

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、視覚におけるゼロショットの教師なし強化学習で successor representation(SR)アプローチがなぜうまく機能しないのかを検討し、主に2つの問題――ダイナミクスに無関係な領域への注意の向き先と、誤った successor 測度によってスキルの制御可能性が劣化すること――を明らかにする。
  • 表現学習と successor トレーニングを切り離し、ダイナミクスに関連する特徴をより適切に捉えるための、新しい枠組み Saliency-Guided Representation with Consistency Policy Learning(SRCP)を提案する。
  • SRCPは、サリエンシー誘導のダイナミクスタスクを導入して successor 測度とタスク汎化を改善し、高次元の視覚環境におけるSRの表現失敗に対処する。
  • さらに本枠組みは、高速サンプリングによる一貫性ポリシー学習と、URL固有のクラス分類器なしガイダンス、およびそれに合わせた学習目的を組み合わせることで、スキル条件付きの行動モデリングも改善する。
  • ExORLベンチマークの4つのデータセットにまたがる16タスクでの実験により、SRCPは最先端のゼロショット汎化性能を達成し、複数のSR手法と併用できることが示される。

要旨: ゼロショットの教師なし強化学習(URL)は、追加の監督なしに未見のタスクへ汎化できる汎用エージェントを構築するための有望な方向性を提供する。既存のアプローチの中で、後続表現(SR)は、構造化された低次元の設定において有効であることから、主要なパラダイムとして注目されている。 しかし、SR手法は高次元の視覚環境へのスケールに困難を抱える。実証的な分析により、視覚URLにおけるSRの2つの重要な制約を特定する: (1) SRの目的は、しばしばダイナミクスに無関係な領域に注意を向けることで不適切な表現につながり、その結果、後続指標が不正確になり、タスクの汎化が劣化すること; そして (2) こうした誤った表現が、SRポリシーによるマルチモーダルな技能条件付き行動分布のモデリングと、技能の制御可能性の確保を妨げること。これらの制約に対処するため、我々は新しい枠組みである、整合性ポリシー学習を伴うサリエンシー誘導表現(SRCP)を提案し、視覚URLにおけるSR手法のゼロショット汎化を改善する。SRCPは、サクセサトレーニングから表現学習を切り離し、ダイナミクスに関連する表現を捉えるためのサリエンシー誘導ダイナミクスタスクを導入することで、後続指標とタスク汎化を改善する。さらに、URL固有のクラス分類器なしガイダンスと、調整された学習目的を組み合わせ、URLのための高速サンプリング整合性ポリシーを統合することで、技能条件付きポリシーのモデリングと制御可能性を向上させる。ExORLベンチマークの4つのデータセットにまたがる16のタスクに対する大規模な実験により、SRCPが視覚URLにおいて最先端のゼロショット汎化を達成し、さまざまなSR手法と互換性があることを示す。

一貫性ポリシー学習を伴う注意(サリエンシー)誘導表現による視覚の教師なし強化学習 | AI Navigate