視覚言語モデルによる安全で適応的かつリアルタイムな視覚ナビゲーションのための、動的制御バリア関数のレギュレーション

arXiv cs.RO / 2026/3/24

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、視点中心のRGB入力を用いて、制御バリア関数(CBF)の保守性(conservativeness)をリアルタイムに調整することで、動的環境におけるロボットの安全かつ効率的なナビゲーションを実現する、視覚から制御へのフレームワークAlphaAdjを提案する。
  • 視覚言語モデルは、現在のカメラ視野から有界なスカラーのリスク推定値を生成し、それを安全制約の強制度合いを制御するCBFパラメータの動的更新へと対応付ける。
  • 実世界における非同期のVLM推論と遅延を扱うため、本手法は、幾何学的で速度を考慮した動的上限(cap)と、陳腐化(staleness)に基づくゲート付きの融合方針を適用し、古くなったリスク信号を制限する。
  • 複数の静的および動的障害物シナリオでの実験により、AlphaAdjは衝突回避の挙動を維持しつつ、固定パラメータのCBF設定と比較してナビゲーション効率を最大18.5%向上できることが示される。
  • このアプローチは、過度に保守的、または過度に許容的な固定安全フィルタに起因する典型的な失敗モードに対処し、上限なしのベースラインと比べて頑健性と成功率も改善する。

Abstract

動的で非構造的な環境で動作するロボットは、潜在的に限られたセンシングのもとで、安全性と効率性の両立を図る必要があります。制御バリア関数(CBF)は、安全性フィルタリングによって原理に基づく衝突回避を提供しますが、その挙動はしばしば固定パラメータによって支配されており、良性の場面では過度に保守的になったり、危険の近傍では過度に許容的になったりすることがあります。本稿では、エゴセントリックRGB入力を用いて、CBFの安全フィルタの保守性をリアルタイムに適応させる、視覚から制御へのナビゲーションの枠組みであるAlphaAdjを提案します。視覚言語モデル(VLM)は、現在のカメラ視点から有界なスカラーのリスク推定値を生成し、この値をCBFパラメータへと写像して、安全制約がどれほど強く課されるかを動的に調整します。実運用での非同期推論や、非自明なVLMの遅延に対処するため、幾何学的で速度を考慮した動的キャップと、陳腐化(staleness)に基づくゲーティング付きの融合ポリシーを組み合わせます。さらに、エンドツーエンドの推論オーバーヘッドを削減する軽量な実装上の選択を行います。AlphaAdjを、さまざまな環境における複数の静的および動的障害物シナリオで評価し、固定パラメータおよびキャップなしのアブレーションと比較します。その結果、AlphaAdjは衝突のないナビゲーションを維持しつつ、固定設定に対して経路長および目標到達までの時間の観点で最大18.5%の効率改善を実現します。また、キャップなしのベースラインに対して、頑健性と成功率も向上させることが示されます。