表形式ファンデーションモデルはロボットの方策学習における探索を導けるか?
arXiv cs.RO / 2026/5/1
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文は、ロボットの連続制御におけるサンプル効率の高い方策最適化を扱い、既存手法が「局所的で初期化やチューニングに敏感」か「大域探索だがロールアウトコストが高い」かのジレンマに直面している点を問題設定している。
- 提案手法TFM-S3は、頻度の高い局所更新と、一定間隔で行う大域探索を交互に実行することで、探索性を高めつつロールアウト回数を抑えるハイブリッド手法である。
- 各大域探索ラウンドでは、SVDにより動的に更新される低次元の方策サブスペースを構築し、その中で代理(サロゲート)に導かれた反復的な洗練によって方策を改良する。
- さらに、事前学習済みの表形式ファンデーションモデルを用いて少量のコンテキストから候補のリターンを予測し、限られた実ロールアウトで大規模なスクリーニングを可能にしている。
- 連続制御ベンチマークの実験では、TFM-S3は同一のロールアウト予算下でTD3や集団ベース手法よりも、初期の収束を速めかつ最終性能も向上させることが示され、ファンデーションモデルがロボット方策学習のサンプル効率化に有効な新しい道具になり得ると結論づけている。




