動的摂動下におけるエージェント中心型視覚強化学習

arXiv cs.RO / 2026/4/28

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、視覚から行動方策を学習する強化学習（RL）が、予測不能な腐敗（破損）タイプの切替のような動的・非定常な視覚摂動下でどのように性能劣化するかを調査する。
Visual Degraded Control Suite（VDCS）を提案し、DeepMind Control SuiteにMarkovスイッチング型の劣化を拡張して、現実の「変化する」摂動条件でのロバスト性ベンチマークを作る。
実験では既存手法の大幅な性能低下が確認され、情報理論的解析により、再構成ベースの目的関数が摂動アーティファクトを潜在表現に不可避に混入させることが失敗要因だと理論的に示される。
これに対し、ACO-MoE（Agent-Centric Observations with Mixture-of-Experts）を提案し、エージェント中心の復元エキスパートを用いて、摂動からの復元とタスクに関係する知覚を切り離す設計で頑健性を高める。
VDCSおよび一般化評価でも効果が大きく、Markovスイッチング腐敗下でクリーン性能の95.3%を回復し、DMControl Generalizationで最先端（SOTA）のロバスト性結果を達成する。

Abstract

視覚的強化学習は、エージェントが視覚観測から方策を学習できるようにすることを目指しているが、不確定な腐敗（corruption）タイプの変化のような動的な視覚的撹乱に対して脆弱であり続けている。これを体系的に研究するために、Visual Degraded Control Suite（VDCS）を導入する。VDCSは、DeepMind Control Suiteをマルコフ切替（Markov-switching）の劣化によって拡張し、非定常な現実世界の撹乱をシミュレートするベンチマークである。VDCSに関する実験から、既存手法では深刻な性能劣化が起きることが明らかになった。情報理論的解析により理論的に、この失敗の原因は、再構成（reconstruction）ベースの目的が不可避的に撹乱アーティファクトを潜在表現（latent representations）に絡め込んでしまうことにあると証明する。こうした負の影響を軽減するために、撹乱に対して視覚的強化学習を頑健化する Agent-Centric Observations with Mixture-of-Experts（ACO-MoE）を提案する。本フレームワークは、エージェント中心の復元に特化した固有の復元エキスパートを活用し、腐敗からの復元とタスクに関連する前景抽出を実現することで、知覚をRLエージェントに処理される前に撹乱から切り離す。VDCSに対する大規模な実験により、提案するACO-MoEが強力なベースラインを上回り、困難なマルコフ切替の撹乱下でクリーン性能の95.3%を回復することを示す。さらに、ランダムカラーおよび動画背景の撹乱によるDMControl GeneralizationにおいてSOTAの結果を達成し、高い頑健性を実証する。