物理世界におけるセマンティック脆弱性の解明:赤外線ビジョン・ランゲージモデル向けユニバーサル対向的パッチ

arXiv cs.CV / 2026/4/6

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、低視認環境での知覚に有望な赤外線ビジョン・ランゲージモデル(IR-VLM)が、それにもかかわらず、先行研究であまり対処されていないRGB焦点の手法では十分に扱えない物理世界の対向的攻撃に対して脆弱であることを調査する。
  • 曲線グリッド・パラメータ化と、プロンプトやラベルを変更するのではなく表現レベルの目的関数(例:部分空間からの逸脱、トポロジーの破壊、ステルス性)を用いる、展開可能なユニバーサル対向的パッチ手法「Universal Curved-Grid Patch(UCGP)」を提案する。
  • さらに、物理変換をより適切に模擬するために、Meta Differential Evolution と、EOT(Expectation over Transformations)を組み込んだ TPS 変形モデリングを組み合わせることで、ドメインシフト下での実世界の頑健性を高める。
  • 実験の結果、UCGP は複数の IR-VLM アーキテクチャにわたって意味理解を確実に低下させることが示され、モデル間およびデータセット間での強い転移性と、実際の物理環境での有効性が確認される。
  • 総じて本研究は、赤外線マルチモーダルシステムにおける、従来あまり注目されてこなかった頑健性の弱点を明らかにし、既存の防御が表現空間での破壊(representation-space disruption)といった脅威を十分にカバーしていない可能性を示唆する。