Tex3D：視覚言語行動（VLA）モデルへの攻撃対象としてのオブジェクト—敵対的な3Dテクスチャによるテキスト3D攻撃

arXiv cs.CV / 2026/4/3

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、物理的に実現可能な敵対的3Dテクスチャをエンドツーエンドで最適化するためのフレームワークTex3Dを提案し、オブジェクトの見え方を通じて、視覚言語行動（VLA）ロボット操作モデルを攻撃する。
主要な技術的課題として、標準的な3Dシミュレータが、VLAの目的関数からオブジェクトのテクスチャへと微分可能ではないため、素直なエンドツーエンド最適化ができない点を挙げる。
Tex3Dは、Foreground-Background Decoupling（FBD）を用い、デュアルレンダラの整合により元のシミュレーション環境を維持しつつ微分可能なテクスチャ最適化を可能にすることでこの問題に対処する。
長いホライゾンや視点の変化を伴う現実環境で攻撃の有効性を保つために、行動上重要なフレームに着目し、頂点ベースのパラメータ化によって最適化を安定化するTrajectory-Aware Adversarial Optimization（TAAO）を提案する。
実験（シミュレーションおよび実ロボット）では、VLAの性能が大幅に低下することが示され、タスク失敗率が最大96.7%に達したと報告されており、物理的に根拠づけられた攻撃に対して重大な頑健性の脆弱性があることを示唆する。

要旨: 視覚-言語-行動（VLA）モデルはロボットによる操作において強い性能を示している一方で、物理的に実現可能な敵対的攻撃への頑健性については、十分に調査されていません。既存研究では、言語の擾乱や2Dの視覚攻撃を通じた脆弱性が明らかにされていますが、これらの攻撃対象は実運用での状況を十分に反映していないか、または物理的な現実味の点で制約があります。これに対し、敵対的な3Dテクスチャは、操作された物体に自然に取り付けられるため、より物理的にもっともらしく、かつ深刻な脅威となります。さらに、物理環境での展開もしやすいという利点があります。しかし、敵対的な3DテクスチャをVLAシステムに導入することは、非自明です。主要な障害は、標準的な3Dシミュレータが、VLAの目的関数から物体の見た目（外観）へと微分可能な最適化経路を提供しないため、エンドツーエンドでの最適化が難しい点にあります。これに対処するため、Foreground-Background Decoupling（FBD）を提案します。これは、元のシミュレーション環境を保持したまま、デュアルレンダラの整合により微分可能なテクスチャ最適化を可能にします。さらに、攻撃が物理世界での長い時間軸および多様な視点にわたって有効であり続けることを確実にするため、Trajectory-Aware Adversarial Optimization（TAAO）を提案します。これは、行動上重要なフレームを優先し、頂点ベースのパラメータ化によって最適化を安定化させます。これらの設計に基づき、Tex3Dを提示します。Tex3Dは、VLAシミュレーション環境内で3D敵対的テクスチャを直接エンドツーエンド最適化するための最初の枠組みです。シミュレーションおよび実ロボットの両方での実験により、Tex3Dが複数の操作タスクにわたってVLAの性能を大きく低下させ、最大で96.7のタスク失敗率を達成することが示されました。これらの経験的結果は、物理的に基盤づけられた3D敵対的攻撃に対するVLAシステムの重要な脆弱性を明らかにし、頑健性を考慮した学習の必要性を強調しています。

💡 この記事が使われたインサイト

AIの最新ニュースをまとめた「今日の要点」で、この記事が取り上げられています。

📅 4/3Dailyインサイトを見る →

Black Hat Asia

AI Business

フィジカルAIに沸く建設業、i-Constructionの教訓生かしプロセス変革に踏み込め

日経XTECH

エヌビディア、「脱・GPU一本足」へ推論特化チップ「Groq 3 LPU」発表

日経XTECH

Mistralが8億3000万ドルを調達、9finがユニコーン到達、そして新たなTech.euサミット登壇者が発表

Tech.eu

ChatGPTは月額20ドル。代替を2.99ドルで作った。

Dev.to

Tex3D：視覚言語行動（VLA）モデルへの攻撃対象としてのオブジェクト—敵対的な3Dテクスチャによるテキスト3D攻撃

要点

💡 この記事が使われたインサイト

関連記事

Black Hat Asia

フィジカルAIに沸く建設業、i-Constructionの教訓生かしプロセス変革に踏み込め

エヌビディア、「脱・GPU一本足」へ推論特化チップ「Groq 3 LPU」発表

Mistralが8億3000万ドルを調達、9finがユニコーン到達、そして新たなTech.euサミット登壇者が発表

ChatGPTは月額20ドル。代替を2.99ドルで作った。

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

💡 この記事が使われたインサイト

関連記事

Black Hat Asia

フィジカルAIに沸く建設業、i-Constructionの教訓生かしプロセス変革に踏み込め

エヌビディア、「脱・GPU一本足」へ 推論特化チップ「Groq 3 LPU」発表

Mistralが8億3000万ドルを調達、9finがユニコーン到達、そして新たなTech.euサミット登壇者が発表

ChatGPTは月額20ドル。代替を2.99ドルで作った。

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

エヌビディア、「脱・GPU一本足」へ推論特化チップ「Groq 3 LPU」発表