SafeVLA:制約付き学習による視覚・言語・行動モデルの安全アライメントへ

arXiv cs.RO / 2026/4/21

📰 ニュースDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research

要点

  • SafeVLA(SafeVLA: Towards Safety Alignment of Vision-Language-Action Model via Constrained Learning)は、視覚・言語・行動を統合するVLA(Vision-Language-Action)モデルの安全性を高めるために、安全要件を明示的に統合する枠組みを提案しています。
  • 具体的には、統合安全アプローチ(ISA)により安全要件をモデル化し、多様な危険行動を積極的に引き出して、そのリスクを制約付き学習(安全強化学習/CMDP)でVLAポリシーに織り込みます。
  • min-max(最小-最大)視点で引き出した安全リスクに対してVLAを最適化し、狙いどおり安全性能とタスク成功率のトレードオフを両立することを目指しています。
  • 実験では、長時間のモバイルマニピュレーション課題で、安全違反の累積コストを既存の最先端手法より83.58%削減しつつ、タスク成功率も+3.85%維持したと報告されています。
  • さらに、長尾リスクへの軽減、極端な失敗シナリオへの対応、学習した安全行動のOOD(分布外)摂動への頑健な一般化能力が示されたとされています。