FASTER:価値ガイド付きサンプリングによる高速強化学習

arXiv cs.LG / 2026/4/22

📰 ニュースDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

要点

  • 複数の行動候補をテスト時にサンプリングして最良の候補を選ぶ手法は強力ですが、選択のための計算コストが高くつきます。
  • 本論文では、拡散ベース方策におけるサンプリングによるテスト時スケーリングの利点を、除ノイズ過程のより前段で行動候補を絞り込むことで計算コストなしに得る手法FASTERを提案します。
  • FASTERは、除ノイズと選択の流れをマルコフ決定過程(MDP)として定式化し、価値(value)に基づく方策を学習してリターンを最大化しながら候補を段階的にフィルタリングします。
  • 長い時間範囲を扱う操作タスクの実験では、オンラインおよびバッチ・オンライン強化学習の両方でFASTERが基盤方策を改善し、比較手法の中で最良の総合性能を達成したことが示されています。
  • 事前学習済みVLAに適用すると、学習・推論の計算量を大幅に削減しつつ同等の性能が得られ、GitHubでコードも公開されています。

Abstract

Some of the most performant reinforcement learning algorithms today can be prohibitively expensive as they use test-time scaling methods such as sampling multiple action candidates and selecting the best one. In this work, we propose FASTER, a method for getting the benefits of sampling-based test-time scaling of diffusion-based policies without the computational cost by tracing the performance gain of action samples back to earlier in the denoising process. Our key insight is that we can model the denoising of multiple action candidates and selecting the best one as a Markov Decision Process (MDP) where the goal is to progressively filter action candidates before denoising is complete. With this MDP, we can learn a policy and value function in the denoising space that predicts the downstream value of action candidates in the denoising process and filters them while maximizing returns. The result is a method that is lightweight and can be plugged into existing generative RL algorithms. Across challenging long-horizon manipulation tasks in online and batch-online RL, FASTER consistently improves the underlying policies and achieves the best overall performance among the compared methods. Applied to a pretrained VLA, FASTER achieves the same performance while substantially reducing training and inference compute requirements. Code is available at https://github.com/alexanderswerdlow/faster .