Flowアンカー付きノイズ条件付きQ学習による効率的で表現力の高いオフライン強化学習へ

arXiv cs.LG / 2026/5/5

📰 ニュースTools & Practical UsageModels & Research

要点

  • この論文は、効率性と高い性能を両立するオフライン強化学習(RL)アルゴリズムとしてFlow-Anchored Noise-conditioned Q-Learning(FAN)を提案する。
  • FANは、フローポリシーと分布型クリティックの計算コストを抑えるために、フロー・ポリシーの反復を1回だけ用い、分布推定でも複数サンプル/量子ではなくガウス・ノイズを1サンプルだけ使う。
  • 著者らは収束と性能に関する理論解析(収束性・性能境界)を示し、効率化のための簡略化がタスク性能の向上にもつながると主張する。
  • ロボットのマニピュレーションとロコモーションの実験では、FANが最先端の性能を達成しつつ、学習・推論の両方のランタイムを大幅に削減することが示される。
  • 実装はGitHubで公開されており、他者が再現や発展的な利用を行いやすい。