概要: 強化学習(RL)アルゴリズムの客観的な比較は悪名高く複雑であり、異なるRLアプローチの性能の結果とベンチマークは、環境設計、報酬構造、およびアルゴリズム学習と環境ダイナミクスの両方に内在する確率性に極めて敏感です。この複雑さを管理するために、ノイズを伴う離散時間・制御アフィン・非線形システムに対して逆最適性を拡張することにより、厳密なベンチマークフレームワークを導入します。本フレームワークは、構築されたシステムに対して、所定の価値関数と方策が最適となるための必要十分条件を提供し、ホモトピー変化と乱数パラメータによるベンチマークファミリの体系的生成を可能にします。多様な環境を自動的に構築することにより、それを検証し、アルゴリズム全体に対する制御された包括的評価を可能にする本フレームワークの能力を示します。本研究は、標準的な手法を真の最適解と比較することにより、正確かつ厳密なRLベンチマークの再現可能な基盤を提供します。
確率的逆最適性を用いた強化学習のベンチマーク: 最適方策が既知のシステムの生成
arXiv cs.LG / 2026/3/19
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、ノイズを伴う離散時間・制御アフィン・非線形システムへ逆最適性を拡張することにより、強化学習のベンチマークフレームワークを提案する。
- 構築されたシステムに対して、与えられた価値関数と方策が最適であることを示す必要十分条件を提供する。
- 本フレームワークは、ホモトピー変化と乱数パラメータを用いて、多様なベンチマーク環境を生成し、制御された評価を可能にします。
- 著者らは、環境を自動的に構築し、標準的な強化学習手法を真の最適解と比較することで、再現性のあるベンチマークを可能にする方法を検証している。
