Tex3D:視覚言語行動(VLA)モデルへの攻撃対象としてのオブジェクト—敵対的な3Dテクスチャによるテキスト3D攻撃

arXiv cs.CV / 2026/4/3

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、物理的に実現可能な敵対的3Dテクスチャをエンドツーエンドで最適化するためのフレームワークTex3Dを提案し、オブジェクトの見え方を通じて、視覚言語行動(VLA)ロボット操作モデルを攻撃する。
  • 主要な技術的課題として、標準的な3Dシミュレータが、VLAの目的関数からオブジェクトのテクスチャへと微分可能ではないため、素直なエンドツーエンド最適化ができない点を挙げる。
  • Tex3Dは、Foreground-Background Decoupling(FBD)を用い、デュアルレンダラの整合により元のシミュレーション環境を維持しつつ微分可能なテクスチャ最適化を可能にすることでこの問題に対処する。
  • 長いホライゾンや視点の変化を伴う現実環境で攻撃の有効性を保つために、行動上重要なフレームに着目し、頂点ベースのパラメータ化によって最適化を安定化するTrajectory-Aware Adversarial Optimization(TAAO)を提案する。
  • 実験(シミュレーションおよび実ロボット)では、VLAの性能が大幅に低下することが示され、タスク失敗率が最大96.7%に達したと報告されており、物理的に根拠づけられた攻撃に対して重大な頑健性の脆弱性があることを示唆する。

要旨: 視覚-言語-行動(VLA)モデルはロボットによる操作において強い性能を示している一方で、物理的に実現可能な敵対的攻撃への頑健性については、十分に調査されていません。既存研究では、言語の擾乱や2Dの視覚攻撃を通じた脆弱性が明らかにされていますが、これらの攻撃対象は実運用での状況を十分に反映していないか、または物理的な現実味の点で制約があります。これに対し、敵対的な3Dテクスチャは、操作された物体に自然に取り付けられるため、より物理的にもっともらしく、かつ深刻な脅威となります。さらに、物理環境での展開もしやすいという利点があります。しかし、敵対的な3DテクスチャをVLAシステムに導入することは、非自明です。主要な障害は、標準的な3Dシミュレータが、VLAの目的関数から物体の見た目(外観)へと微分可能な最適化経路を提供しないため、エンドツーエンドでの最適化が難しい点にあります。これに対処するため、Foreground-Background Decoupling(FBD)を提案します。これは、元のシミュレーション環境を保持したまま、デュアルレンダラの整合により微分可能なテクスチャ最適化を可能にします。さらに、攻撃が物理世界での長い時間軸および多様な視点にわたって有効であり続けることを確実にするため、Trajectory-Aware Adversarial Optimization(TAAO)を提案します。これは、行動上重要なフレームを優先し、頂点ベースのパラメータ化によって最適化を安定化させます。これらの設計に基づき、Tex3Dを提示します。Tex3Dは、VLAシミュレーション環境内で3D敵対的テクスチャを直接エンドツーエンド最適化するための最初の枠組みです。シミュレーションおよび実ロボットの両方での実験により、Tex3Dが複数の操作タスクにわたってVLAの性能を大きく低下させ、最大で96.7のタスク失敗率を達成することが示されました。これらの経験的結果は、物理的に基盤づけられた3D敵対的攻撃に対するVLAシステムの重要な脆弱性を明らかにし、頑健性を考慮した学習の必要性を強調しています。