要旨:
拡散ベースのポリシーは、複雑で非ガウス分布を表現できる能力があるため、強化学習(RL)において顕著な人気を集めています。
確率微分方程式(SDE)に基づく拡散ポリシーは、厳密なエントロピーの計算が困難であるため、間接的なエントロピー制御に依存することが多く、さらに逐次的なノイズ除去チェーンを介した計算的に膨大なポリシー勾配にも悩まされます。
これらの問題を克服するために、Flow Matching Policy with Entropy Regularization (FMER) を提案します。これは、常微分方程式(ODE)ベースのオンラインRLフレームワークです。
FMERは流れマッチングを用いてポリシーをパラメータ化し、最適輸送に動機づけられた直線的な確率経路に沿って行動をサンプリングします。
FMERはモデルの生成的性質を活用して、候補集合からアドバンテージ重み付きのターゲット速度場を構築し、ポリシー更新を高価値領域へと誘導します。
扱いやすいエントロピー目的を導出することにより、FMERは探索を強化するための原理的な最大エントロピー最適化を可能にします。
スパースなマルチゴールFrankaKitchenベンチマークでの実験は、FMERが最先端の手法を上回ることを示す一方、標準のMuJoCoベンチマークでも競争力を維持していることを示しています。
さらに、FMERは重い拡散ベースのベースライン(QVPO)と比較して学習時間を7倍短縮し、効率的なバリアントと比較して相対的に10〜15%短縮します。
返却形式: {"translated": "翻訳されたHTML"}