HazardArena:視覚言語行動モデルにおけるセマンティック安全性の評価

arXiv cs.RO / 2026/4/15

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • Vision-Language-Action(VLA)モデルは、行動を正しく実行できていても、評価時に行動ポリシーが視覚・言語のセマンティクスと厳密に結び付いていないため、危険な結果を生成することがあり得る。
  • 本論文では、セマンティックなリスクを切り分けるために、対応する「安全/危険のツイン」シナリオから構築した新しいベンチマーク HazardArena を提案する。これには2,000点以上のアセット、リスクに敏感な40のタスク、ロボット工学の安全基準に整合した7つのリスクカテゴリが含まれる。
  • 実験の結果、セーフなシナリオのみで学習したモデルは、セマンティックに対応する危険なバリアントでテストすると頻繁に失敗し、体系的なセマンティック安全性の脆弱性が明らかになった。
  • 著者らは、再学習なしでこの問題に対処するために、セマンティック属性または視覚言語のジャッジを用いて実行を制約する、学習不要(training-free)の Safety Option Layer を提案する。これにより、安全でない行動を抑制でき、タスク性能への影響は最小限に抑えられる。
  • 本研究は、VLAが現実世界への展開に向けてスケールしていくにあたり、行動成功率を測るだけでなく、セマンティックな安全性を評価し強制する方法を見直す必要があると主張する。

Abstract

画像言語動作(Vision-Language-Action; VLA)モデルは、視覚言語バックボーンから豊富な世界知識を継承し、動作デモンストレーションを通じて実行可能なスキルを獲得します。しかし、既存の評価の多くは動作の実行成功に主に焦点を当てており、動作ポリシーが視覚言語的セマンティクスと緩く結び付いたままになっています。この切り離しは、正しい動作の実行が、セマンティック上のリスクによって危険な結果を招き得るという体系的な脆弱性を露呈します。この脆弱性を明らかにするために、我々はHazardArenaを導入します。これは、制御されているがリスクを伴う状況の下で、VLAにおけるセマンティック安全性を評価することを目的としたベンチマークです。HazardArenaは、共有されたオブジェクト、整ったレイアウト、そして動作要求を一致させた、安全/危険の双子シナリオから構築されており、動作が危険かどうかを決定するセマンティックな文脈のみが異なります。その結果、VLAモデルが安全シナリオのみで学習されている場合、それに対応する危険シナリオで評価するとしばしば安全に振る舞えないことが分かりました。HazardArenaには2,000を超えるアセットと、確立されたロボット安全基準に基づく7つの実世界リスクカテゴリにまたがる、リスクに敏感な40のタスクが含まれています。この脆弱性を緩和するために、我々はトレーニング不要のSafety Option Layerを提案します。これは、セマンティック属性または視覚言語ジャッジを用いて動作実行を制約し、タスク性能への影響を最小限に抑えつつ、危険な挙動を大幅に低減します。HazardArenaが、VLAが現実世界のデプロイに向けてスケールしていく中で、セマンティック安全性をどのように評価し、どのように強制すべきかを再考する必要性を示すことを期待しています。