SafeVLA：制約付き学習による視覚・言語・行動モデルの安全アライメントへ

arXiv cs.RO / 2026/4/21

📰 ニュースDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research

共有:

要点

SafeVLA（SafeVLA: Towards Safety Alignment of Vision-Language-Action Model via Constrained Learning）は、視覚・言語・行動を統合するVLA（Vision-Language-Action）モデルの安全性を高めるために、安全要件を明示的に統合する枠組みを提案しています。
具体的には、統合安全アプローチ（ISA）により安全要件をモデル化し、多様な危険行動を積極的に引き出して、そのリスクを制約付き学習（安全強化学習／CMDP）でVLAポリシーに織り込みます。
min-max（最小-最大）視点で引き出した安全リスクに対してVLAを最適化し、狙いどおり安全性能とタスク成功率のトレードオフを両立することを目指しています。
実験では、長時間のモバイルマニピュレーション課題で、安全違反の累積コストを既存の最先端手法より83.58%削減しつつ、タスク成功率も+3.85%維持したと報告されています。
さらに、長尾リスクへの軽減、極端な失敗シナリオへの対応、学習した安全行動のOOD（分布外）摂動への頑健な一般化能力が示されたとされています。