VISION-SLS:学習した視覚表現からのシステムレベル合成による安全な知覚ベース制御

arXiv cs.LG / 2026/4/29

💬 オピニオンDeveloper Stack & InfrastructureModels & Research

要点

  • VISION-SLSは、高解像度RGB画像から非線形の出力フィードバック制御を行い、較正された不確実性の範囲でも頑健に制約充足を保証する手法である。
  • 本手法は、事前学習済み視覚特徴から状態依存の誤差境界付きで学習した低次元の観測写像と、System Level Synthesis(SLS)で最適化する因果的なアフィン時間変化型の出力フィードバック方策を組み合わせている。
  • 非凸な最適化問題に対して、逐次凸最適化(sequential convex programming)と効率的なRiccati再帰を活用するスケーラブルなソルバを新たに開発した。
  • シミュレーションでは、4Dカート、10Dクアッドローターに加え、部分観測下の59Dヒューマノイドで、安全な情報収集行動と、経験的に較正した誤差境界に基づく制約充足が示された。
  • ハードウェア実証では、車載画像による地上車両の安全な制御に成功し、ベースラインより安全率と解法時間で優れており、実装コードはGitHubで公開されている。

Abstract

私たちは、高解像度RGB画像からの非線形出力フィードバック制御のための手法 VISION-SLS を提案します。本手法は、部分観測性、センサノイズ、非線形ダイナミクスが存在する状況下でも、較正済みの不確実性境界のもとで頑健な制約充足の保証を提供します。保証を維持しつつスケーラビリティを可能にするため、私たちは次を提案します: (i) 事前学習済みの視覚特徴から状態依存の誤差境界を伴って学習する低次元の観測写像、(ii) System Level Synthesis (SLS) により最適化された、因果的なアフィンの時変出力フィードバック方策。私たちは、結果として得られる非凸なプログラムに対して、効率的なリカッチ再帰と組み合わせた逐次凸計画を活用する、スケーラブルで新規なソルバを開発します。>= 512×512 ピクセルの2つのシミュレーション上の視運動タスク(4D カーと10D クアドロトール)および部分観測性を伴う59D ヒューマノイド・タスクにおいて、私たちの手法は、安全な情報収集行動を可能にし、経験的に較正された誤差境界のもとで制約充足を保証しながら不確実性を低減します。また、この手法をハードウェアでも検証し、搭載カメラ画像から安全に地上車両を制御し、既存ベースラインよりも安全率と解探索時間で優れた性能を示します。これらの結果は、学習による視覚的抽象化と効率的なソルバを組み合わせることで、SLS ベースの安全な視運動出力フィードバックがスケールにおいて実用可能になることを示しています。私たちの手法のコード実装は https://github.com/trustworthyrobotics/VISION-SLS で公開されています。