ScoRe-Flow:フローマッチングのためのスコアベース強化学習による分布制御の完全実現

arXiv cs.RO / 2026/4/14

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文では、ロボット制御に用いられるフローマッチング(FM)方策を微調整するための、スコアベース強化学習アプローチであるScoRe-Flowを提案する。
  • 先行するFM RL手法の主要な制約として、SDEのドリフトをスコア(対数密度の勾配)で変調し、高確率領域へ探索を誘導することで安定性を向上させる点に焦点を当てて解決する。
  • ScoRe-Flowは、速度場から閉形式でスコアを計算することで補助ネットワークを不要にし、さらに分散も予測して、確率的遷移における平均と分散の制御を分離する。
  • 実験結果では、D4RLの移動(ロコモーション)タスクにおいて、従来のフローベースの最先端手法に比べて収束が2.4倍高速であることを示す。
  • 本手法は、RobomimicおよびFranka Kitchenの操作ベンチマークにおいて、最大で成功率が5.4%向上したとも報告している。

Abstract

Flow Matching(FM)ポリシーは、ロボット制御のための効率的な基盤として登場し、近年の大規模な身体化AIシステムを支える高速かつ表現力のある行動生成を提供しています。しかし、模倣学習によって訓練されたFMポリシーは、デモンストレーションデータの制約を引き継ぎます。劣った振る舞いを超えるには、強化学習(RL)による微調整が必要です。近年の手法では、決定論的なフローを、学習可能なノイズ注入を伴う確率微分方程式(SDE)へ変換することで、探索を可能にしつつ、扱いやすい尤度を実現しています。しかし、デモンストレーションがすでに強い事前知識(prior)を与えている場合に、ノイズのみの制御は学習効率を損なう可能性があります。私たちは、スコア関数、すなわち対数密度の勾配によってドリフトを調整することで、高確率領域へ探索が誘導され、安定性が向上することを観察しています。スコアは速度場から閉形式で導出でき、補助的なニューラルネットワークを必要としません。これに基づき、ScoRe-Flow というスコアに基づくRL微調整手法を提案します。これは、ドリフト変調と、学習した分散予測を組み合わせることで、確率的遷移における平均と分散を切り離して制御できるようにします。実験の結果、ScoRe-Flow は D4RL の移動(locomotion)タスクにおいて、フローベースのSOTAより 2.4 倍速い収束を達成し、Robomimic および Franka Kitchen の操作(manipulation)タスクでは最大 5.4% 高い成功率を示しました。