要旨: 事前学習済みの生成ロボット方策に対して、ガウスから繰り返しサンプリングするのではなく、一定の初期ノイズを入力として与えると何が起こるのでしょうか?本研究では、事前学習済みで凍結された拡散またはフローマッチング方策の性能を、下流の報酬に関して改善できることを示します。具体的には、初期ノイズのサンプリングを事前分布(通常は等方的ガウス)から行う代わりに、うまく選ばれた一定の初期ノイズ入力へ置き換える――いわゆる「ゴールデンチケット」――ことで改善します。そこで、モンテカルロ方策評価を用いてゴールデンチケットを探索する手法を提案します。この手法は、事前学習済みの方策を凍結したままにし、新しいネットワークの学習を一切行わず、すべての拡散/フローマッチング方策(したがって多くのVLA)に適用可能です。方策改善に関する我々のアプローチは、方策に初期ノイズを注入でき、エピソードロールアウトの(疎な)タスク報酬を計算できること以外には何ら仮定を置きません。したがって、追加のインフラやモデルなしでデプロイ可能です。我々の方法は、シミュレーションと実世界のロボット操作ベンチマークにおいて43タスク中38タスクで方策の性能を向上させます。成功率の相対改善は、一部のシミュレーションタスクで最大58%、実世界タスクでは50回の探索エピソード以内で60%に達します。また、マルチタスク設定におけるゴールデンチケットの独自の利点も示します。異なるチケットから得られる行動の多様性が、異なる目的(たとえば速度や成功率)のバランスのためのパレートフロンティアを自然に定義します。VLAにおいては、あるタスク向けに最適化されたゴールデンチケットが、関連する他のタスクでも性能を押し上げ得ることを見出します。我々は、VLA、拡散方策、フローマッチング方策を用いたシミュレーションベンチマークのための、事前学習済み方策とゴールデンチケットのコードベースを公開します。
黄金のチケットを手に入れろ:単一のノイズベクトルで生成ロボット方策を改善する
arXiv cs.RO / 2026/4/13
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- この論文は、拡散(diffusion)やフローマッチング(flow matching)を用いた事前学習済みの生成ロボット方策が、ガウス分布からの確率的な初期ノイズサンプリングを、適切に選ばれた1つの定数ノイズベクトル(「黄金のチケット」)に置き換えることで改善できることを示している。
- 事前学習済みの方策を凍結したまま、新たなネットワークは学習せず、初期ノイズの注入とロールアウトに基づく疎なタスク報酬の評価のみに依存する、モンテカルロ探索手法を提案する。
- シミュレーションおよび実世界のロボット操作タスク計43件中38件において、黄金のチケットはシミュレーションで最大58%の相対成功率向上、実世界では50エピソード以内の探索で最大60%の向上をもたらす。
- 著者らは、黄金のチケットがマルチタスク設定でも利点を提供することを見出している。具体的には、異なるチケットの行動の多様性がパレートフロンティアを形成し、あるタスクのために最適化されたチケットが、VLA設定における関連タスクの助けになる。
- コードベースが公開されており、VLA、拡散方策、フローマッチング方策にまたがるシミュレーションのベンチマーク用に、事前学習済み方策と黄金のチケットが提供される。

