表形式ファンデーションモデルはロボットの方策学習における探索を導けるか?

arXiv cs.RO / 2026/5/1

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、ロボットの連続制御におけるサンプル効率の高い方策最適化を扱い、既存手法が「局所的で初期化やチューニングに敏感」か「大域探索だがロールアウトコストが高い」かのジレンマに直面している点を問題設定している。
  • 提案手法TFM-S3は、頻度の高い局所更新と、一定間隔で行う大域探索を交互に実行することで、探索性を高めつつロールアウト回数を抑えるハイブリッド手法である。
  • 各大域探索ラウンドでは、SVDにより動的に更新される低次元の方策サブスペースを構築し、その中で代理(サロゲート)に導かれた反復的な洗練によって方策を改良する。
  • さらに、事前学習済みの表形式ファンデーションモデルを用いて少量のコンテキストから候補のリターンを予測し、限られた実ロールアウトで大規模なスクリーニングを可能にしている。
  • 連続制御ベンチマークの実験では、TFM-S3は同一のロールアウト予算下でTD3や集団ベース手法よりも、初期の収束を速めかつ最終性能も向上させることが示され、ファンデーションモデルがロボット方策学習のサンプル効率化に有効な新しい道具になり得ると結論づけている。

Abstract

ロボティクスにおける高次元の連続制御に対する政策最適化は、依然として難しい問題です。主流の手法は本質的に局所的であり、良好な性能を得るためにはしばしば広範なチューニングや、慎重に選ばれた初期推定(初期値)が必要となります。一方で、よりグローバルで初期化に鈍感な探索手法は、一般にロールアウト(試行)のコストが高くなりがちです。そこで本研究では、ロールアウトコストを限られたものとしつつ、ロボットの政策学習における大域的探索を改善するための、表形式のハイブリッド局所・大域手法であるTFM-S3を提案します。高頻度の局所更新を行いながら、間欠的に大域探索のラウンドを挿入します。各探索ラウンドでは、SVDにより動的に更新される低次元の政策部分空間を構築し、その空間内で代理(サロゲート)ガイドによる反復的な洗練(リファインメント)を行います。事前学習済みの表形式基盤モデルが、小さなコンテキスト集合から候補となるリターン(報酬)を予測することで、ロールアウトコストを抑えた大規模なスクリーニングを可能にします。連続制御のベンチマークに対する実験では、同一のロールアウト予算のもとで、TFM-S3がTD3および母集団ベースのベースラインと比べて、初期段階での収束を一貫して加速し、最終性能も向上させることが示されました。これらの結果は、基盤モデルが、ロボティクスにおける連続制御のためのサンプル効率の高い政策学習手法を作るための強力な新しいツールであることを示しています。