ターゲットネットワークなしで実現するロバストな品質多様性のための分布推定値（Distributional Value Estimation）

arXiv cs.LG / 2026/4/23

📰 ニュースModels & Research

共有:

要点

この論文は、Quality-Diversity（QD）探索を複雑なロコモーション課題で改善するための、ターゲットなしの分布型強化学習アルゴリズムQDHUACを提案します。
通常の高Update-to-Data（UTD）手法は学習安定化のためにターゲットネットワークを使うことが多い一方で、著者らはこれが計算ボトルネックとなり、リソース負荷の高いQDでの実用性を下げると述べています。
QDHUACは、Dominated Novelty Searchをよりサンプル効率よく行うために、密で分散の小さい勾配信号を提供し、高UTD比でも安定に学習できることを狙っています。
高次元のBrax環境での実験では、競争力のあるカバレッジと適応度を達成しつつ、ベースラインより環境ステップを1桁少なくして安定した高UTD学習を実現したと報告されています。
著者らは、ターゲットなしの分布型クリティックと、優位性（dominance）に基づく選択を組み合わせることが、次世代のサンプル効率の高い進化的強化学習の重要な要素になると結論づけています。