SafeMind:適応的かつ安全な四足歩行のための、リスクを考慮した微分可能な制御フレームワーク

arXiv cs.RO / 2026/4/13

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文では、不確実性や非構造化された接触に対して学習ベースの四足歩行で形式的な安全保証が欠けている点に焦点を当て、リスクを考慮した微分可能な確率的安全制御フレームワークであるSafeMindを提案する。
  • SafeMindは、確率的なControl Barrier Functions(CBF)を、セマンティックな文脈理解およびメタ適応的なリスク較正と統合し、分散を考慮したバリア制約を微分可能な二次計画(QP)内に明示的に組み込むことで、認識論的不確実性(epistemic)と観測・環境ノイズに起因する不確実性(aleatoric)の両方をモデル化する。
  • 本フレームワークでは、セマンティクスから制約へ写像するエンコーダにより知覚や言語の手がかりから安全マージンを調整し、メタ適応学習器によって環境間でリスク感度を動的に切り替える。
  • 確率的な力学のもとで、確率的前方不変性(probabilistic forward invariance)、可行性(feasibility)、安定性(stability)についての理論的条件を提示し、勾配の流れ(gradient flow)を維持しながら、エンドツーエンドの微分可能な学習を可能にする。
  • Unitree A1およびANYmal Cに200 Hzで実装し、12種類の地形、動的障害物、形状(モルフォロジ)擾乱、セマンティックに定義されたタスクにわたって評価したところ、SafeMindは複数のCBF/MPC/ハイブリッド強化学習のベースラインに比べて安全違反を3〜10倍低減し、エネルギー消費も10〜15%削減しつつ、リアルタイム性を維持したと報告されている。

Abstract

Learning-based quadruped controllers achieve impressive agility but typically lack formal safety guarantees under model uncertainty, perception noise, and unstructured contact conditions. We introduce SafeMind, a differentiable stochastic safety-control framework that unifies probabilistic Control Barrier Functions with semantic context understanding and meta-adaptive risk calibration. SafeMind explicitly models epistemic and aleatoric uncertainty through a variance-aware barrier constraint embedded in a differentiable quadratic program, thereby preserving gradient flow for end-to-end training. A semantics-to-constraint encoder modulates safety margins using perceptual or language cues, while a meta-adaptive learner continuously adjusts risk sensitivity across environments. We provide theoretical conditions for probabilistic forward invariance, feasibility, and stability under stochastic dynamics. SafeMind is deployed on Unitree A1 and ANYmal C at 200~Hz and validated across 12 terrain types, dynamic obstacles, morphology perturbations, and semantically defined tasks. Experiments show that SafeMind reduces safety violations by 3--10x and energy consumption by 10--15% relative to state-of-the-art CBF, MPC, and hybrid RL baselines, while maintaining real-time control performance.