AI Navigate

エントロピー正則化を取り入れたフロー整合ポリシー

arXiv cs.LG / 2026/3/19

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • FMERは、常微分方程式に基づくオンライン強化学習フレームワークを導入し、ポリシーをフロー整合(flow matching)でパラメータ化し、確率分布の直線的経路に沿って行動をサンプリングします。
  • 探索の改善を目的に原理的最大エントロピー最適化を可能にする、扱いやすいエントロピー目的関数を導出します。
  • この手法は、候補集合から導出されたアドバンテージ重み付きターゲット速度場を活用してポリシー更新を高価値領域へ向けさせ、モデルの生成的性質を活用します。
  • スパースなマルチゴールFrankaKitchenベンチマークでの経験的結果は、FMERが最先端手法を上回り、MuJoCoでも競争力を維持しつつ、トレーニング時間を短縮することを示しています(QVPOのような重い拡散ベースラインより約7倍速く、効率的な変種より10〜15%速い)。
  • この知見は、拡散ベースの強化学習におけるサンプル効率と計算資源の有意な向上を示唆しており、ロボティクスやその他のAI制御システムへの潜在的影響があると考えられます。

要旨:
拡散ベースのポリシーは、複雑で非ガウス分布を表現できる能力があるため、強化学習(RL)において顕著な人気を集めています。
確率微分方程式(SDE)に基づく拡散ポリシーは、厳密なエントロピーの計算が困難であるため、間接的なエントロピー制御に依存することが多く、さらに逐次的なノイズ除去チェーンを介した計算的に膨大なポリシー勾配にも悩まされます。
これらの問題を克服するために、Flow Matching Policy with Entropy Regularization (FMER) を提案します。これは、常微分方程式(ODE)ベースのオンラインRLフレームワークです。
FMERは流れマッチングを用いてポリシーをパラメータ化し、最適輸送に動機づけられた直線的な確率経路に沿って行動をサンプリングします。
FMERはモデルの生成的性質を活用して、候補集合からアドバンテージ重み付きのターゲット速度場を構築し、ポリシー更新を高価値領域へと誘導します。
扱いやすいエントロピー目的を導出することにより、FMERは探索を強化するための原理的な最大エントロピー最適化を可能にします。
スパースなマルチゴールFrankaKitchenベンチマークでの実験は、FMERが最先端の手法を上回ることを示す一方、標準のMuJoCoベンチマークでも競争力を維持していることを示しています。
さらに、FMERは重い拡散ベースのベースライン(QVPO)と比較して学習時間を7倍短縮し、効率的なバリアントと比較して相対的に10〜15%短縮します。

返却形式: {"translated": "翻訳されたHTML"}