ビジョン・言語・行動の安全性：脅威、課題、評価、メカニズム

arXiv cs.RO / 2026/4/28

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

Vision-Language-Action（VLA）モデルは身体性を備えた統合基盤として注目されており、物理的に取り返しのつかない結果を生む可能性など、新たな安全課題が発生します。
VLAでは、視覚・言語・状態（ロボット状態）の複数モーダルにまたがる攻撃面、長期行動でのエラー伝播、リアルタイムの防御レイテンシ制約、データ供給チェーンの脆弱性が重要な論点です。
文献がロボティクス学習、敵対的機械学習、AIアライメント、自律システム安全などに分断されているため、本調査は攻撃/防御/評価/デプロイメントの観点で体系化し、学界の全体像を統合的に整理しています。
攻撃と防御を「いつ起きるか」（学習時か推論時か、さらに防御も同様に）という時間軸で整理し、データポイズニングやバックドア、敵対的パッチやクロスモーダル擾乱、セマンティック・ジャイルブレイク、フリーズ攻撃などを対象にしています。
今後の主要な未解決課題として、身体軌道に対する認証付きロバスト性、現実に実装可能な防御、安全を考慮した学習、統一的なランタイム安全アーキテクチャ、標準化された評価が挙げられます。

Abstract

Vision-Language-Action（VLA）モデルは、身体性（embodied）を備えた知能のための統一的な基盤として注目を集めています。この変化は、VLAシステムの身体性に起因する新たなクラスの安全性課題を生み出します。具体的には、不可逆的な物理的帰結、多様なモダリティにまたがる攻撃対象（視覚・言語・状態）、防御に課されるリアルタイムのレイテンシ制約、長いホライゾンの軌道にわたる誤りの伝播、データ供給チェーンにおける脆弱性などです。しかし、関連文献は、ロボティック学習、敵対的機械学習、AIアライメント、自律システムの安全性にまたがって断片化したままです。本調査（サーベイ）は、Vision-Language-Actionモデルにおける安全性について、統一された最新の概観を提供します。私たちは、攻撃のタイミング（学習時 vs. 推論時）という2つの並行する時間軸と、防御のタイミング（学習時 vs. 推論時）という軸に沿ってこの分野を整理し、それぞれの脅威クラスが、どの段階で軽減可能かを対応づけます。まず、テキストのみのLLM安全性や古典的なロボティクス安全性と区別しつつ、VLA安全性の範囲を定義します。そのうえで、VLAモデルの基礎、すなわちアーキテクチャ、学習パラダイム、推論メカニズムを含めて概観します。次に、文献を4つの観点、すなわち攻撃（Attacks）、防御（Defenses）、評価（Evaluation）、展開（Deployment）から検討します。データポイズニングやバックドアといった学習時の脅威に加え、敵対的パッチ、クロスモーダルな摂動、セマンティックなジルブレイク（jailbreak）、フリージング攻撃といった推論時の攻撃を調査します。学習時および実行時の防御をレビューし、既存のベンチマークや指標を分析し、6つの展開ドメインにまたがる安全性課題について議論します。最後に、身体性のある軌道に対する認証（証明）付き頑健性、物理的に実現可能な防御、安全性を意識した学習、統一された実行時安全性アーキテクチャ、標準化された評価など、主要な未解決問題を強調します。