思考が変われば、行動も変わる:VLAロボット操作における思考過程の脆弱性を検証
arXiv cs.AI / 2026/3/16
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本研究は、思考過程を用いる Vision-Language-Action(VLA)モデルの脆弱性を、入力をそのままにした状態で内部推論過程の痕跡だけを破壊して評価することで調べ、ロボット操作性能への影響を検証する。
- 研究者らは、3つの攻撃者階層(ブラインドノイズ、機械的・意味論的、LLM適応)にまたがる7種類のテキスト破損の分類を導入し、それらを40のLIBEROテーブルトップ課題で評価した。
- 推論過程内の物体名を置換することは、全体で約8.3ポイントの成功率低下を引き起こし、目標条件付きタスクでは最大19.3ポイント、いくつかの個別タスクでは最大45ポイントに達する。
- 一方、他の破損は影響がほとんどない。
- 結果は、アクションデコーダが推論過程の品質やその逐次構造よりも、エンティティ参照のグラウンディングに依存していることを示唆している。
- 高度なLLMベースの攻撃者は、単純な物体名の置換より効果が薄い場合があり、この脆弱性は推論を組み込んだモデルに特有で、命令レベルの攻撃は推論系と非推論系の双方のアーキテクチャに影響を及ぼす。




