SafeVLA:制約付き学習による視覚・言語・行動モデルの安全アライメントへ
arXiv cs.RO / 2026/4/21
📰 ニュースDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research
要点
- SafeVLA(SafeVLA: Towards Safety Alignment of Vision-Language-Action Model via Constrained Learning)は、視覚・言語・行動を統合するVLA(Vision-Language-Action)モデルの安全性を高めるために、安全要件を明示的に統合する枠組みを提案しています。
- 具体的には、統合安全アプローチ(ISA)により安全要件をモデル化し、多様な危険行動を積極的に引き出して、そのリスクを制約付き学習(安全強化学習/CMDP)でVLAポリシーに織り込みます。
- min-max(最小-最大)視点で引き出した安全リスクに対してVLAを最適化し、狙いどおり安全性能とタスク成功率のトレードオフを両立することを目指しています。
- 実験では、長時間のモバイルマニピュレーション課題で、安全違反の累積コストを既存の最先端手法より83.58%削減しつつ、タスク成功率も+3.85%維持したと報告されています。
- さらに、長尾リスクへの軽減、極端な失敗シナリオへの対応、学習した安全行動のOOD(分布外)摂動への頑健な一般化能力が示されたとされています。




