概要: 拡張現実(AR)は過去10年間で急速に拡大してきました。ARが日常生活にますます統合されるにつれ、そのセキュリティと信頼性は重要な課題として浮上しています。さまざまな脅威の中でも、とりわけ、矛盾する仮想コンテンツ攻撃――悪意のある、または一貫性のない仮想要素がユーザーの視界に導入されることで生じる攻撃――は、ユーザーを誤誘導したり、意味的な混乱を引き起こしたり、有害な情報を提供したりすることにより、独自のリスクをもたらします。本研究では、この種の攻撃を体系的にモデル化し、ARにおける仮想コンテンツの操作および矛盾に対する視覚-言語モデル(VLMs)の頑健性を評価するための新しいベンチマークであるContrARを提示します。ContrARは、10名の人間参加者によって検証された、現実世界のAR動画312本を含みます。さらに、商用モデルとオープンソースモデルの両方を含む11個のVLMに対してベンチマークを行います。実験結果は、現在のVLMが矛盾する仮想コンテンツの理解において妥当な性能を示す一方で、AR環境における敵対的なコンテンツ操作を検出し推論する点では、改善の余地がなお残っていることを明らかにします。加えて、検出精度とレイテンシのバランスを取ることは依然として難題です。
拡張現実(AR)における矛盾する仮想コンテンツ攻撃下でのビジョン・ランゲージモデルのベンチマーク評価
arXiv cs.CV / 2026/4/8
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、拡張現実(AR)における矛盾する仮想コンテンツ攻撃に対する体系的な脅威モデルを提示している。そこでは、悪意のある、または一貫性のない仮想要素がユーザを誤誘導したり、意味の混乱を引き起こしたりする可能性がある。
- 著者らは、ContrARという新しいベンチマークを提案する。これは、実世界の人手による検証済みAR動画312本から構成されており、ARにおける仮想コンテンツの操作や矛盾に対して、ビジョン・ランゲージモデル(VLM)がどの程度うまく対応できるかを評価することを目的としている。
- 著者らは、11のVLM(商用およびオープンソース)をベンチマークし、その結果、多くのモデルが矛盾する仮想コンテンツをある程度は理解できる一方で、AR環境における敵対的検出と推論にはまだ大きな改善の余地があることを示している。
- 報告されている主要な課題は、リアルタイムARシステムにとって重要である検出精度とレイテンシ(遅延)をどのように両立させるかである。
- 全体として、本研究は、敵対的な仮想コンテンツ条件下でVLMをAR環境に展開した場合における、セキュリティと信頼性のギャップを浮き彫りにしている。


