Swim2Real:VLMガイドによるシミュレーションから現実への移送のためのシステム同定

arXiv cs.RO / 2026/3/24

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • Swim2Realは、視覚言語モデル(VLM)のフィードバックを用いて、手作業で設計した探索ステージを用いずに16パラメータのロボット魚シミュレータを調整する、ビデオからシミュレータへのキャリブレーション用パイプラインである。
  • 水中ロボティクスにおける難しいシム・ツー・リアル問題(カオス的なパラメータ空間、シミュレーションモデル誤差の持続、再現可能な実験の制約)に対し、シミュレートされた遊泳映像と実際の遊泳映像を比較しながらパラメータを反復的に更新することで対応する。
  • VLMが提案するステップサイズを検証するためにバックトラッキング付きラインサーチを行うことで、更新の方向は正しいが大きさが過剰であるケースを補正し、受理率を14%から42%へと高める。
  • キャリブレーション済みのシミュレータは、モータ周波数にわたって実魚の速度と非常によく一致し(MAE 7.4 mm/s、次に優れた手法より43%低い)、5回の実行において外れ値となるシードがゼロで、頑健性も維持する。
  • 調整したシミュレータを用いることで、モータ指令を50 Hzで実機の魚へ転送でき、下流の強化学習(RL)ポリシーは、BayesOptまたはCMA-ESでキャリブレーションしたシミュレータで学習したポリシーよりも性能が向上する。

要旨: 本論文では、泳ぐ映像からビジョン・ランゲージ・モデル(VLM)のフィードバックを用いて16パラメータのロボット魚シミュレータを較正するパイプライン「Swim2Real」を提示する。手作業で設計した探索ステージは不要である。柔らかい水中ロボットの較正は特に難しい。非線形な流体‐構造連成によりパラメータ空間の景観がカオス的になり、簡略化した流体モデルは恒常的な sim-to-real ギャップを生み、制御された水中実験の再現も困難である。このプラットフォームに関する先行研究では、この複雑さを扱うために手作業で調整した3つの段階が必要だった。VLMはシミュレート映像と実映像を比較し、パラメータ更新を提案する。続いてバックトラッキングのラインサーチが各ステップサイズを検証し、方向は正しいが大きさが過大である提案を回復することで、受理率を14%から42%へと3倍にした。Swim2Realは16パラメータすべてを同時に較正し、あらゆるモータ周波数において実魚の速度と最も近く一致する(MAE = 7.4 mm/s、次点の手法より43%低い)。5回の実行において外れ値となる初期シードは0件だった。訓練済みポリシーからのモータ指令は50 Hzで実機の魚へ転送され、水中での実運用まで、泳ぐ映像から現実世界へのパイプラインを完了する。下流のRLポリシーは、BayesOptで較正したシミュレータから得たものより12%長く泳ぎ、CMA-ESより90%長く泳ぐ。これらの結果は、VLMに導かれた較正が、水中ロボットの sim-to-real ギャップを映像から直接に埋められること、また、手動のシステム同定なしに物理的なスイマーへゼロショットでRLを転送できることを示している。これは、水中ロボティクスにおける自動化された汎用的なシミュレータ調整へ向けた一歩である。