ProCap：空間拡張現実における投影を考慮したキャプション生成

arXiv cs.CV / 2026/4/2

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

ProCapは、空間拡張現実（Spatial Augmented Reality, SAR）における仮想—物理間の意味的曖昧さを解決するために提案される。プロジェクタは、視覚と言語のモデルが投影された内容を実際のシーンと混同してしまう原因となりうる。
本フレームワークは2段階パイプラインで構成される。まず、自動セグメンテーションにより仮想層と物理層を分離する。次に、領域を考慮したリトリーバルにより、投影の歪みに関連する文脈上の曖昧さを低減する。
本論文では、RGBP（RGB + Projections）を導入する。これは、大規模なSARセマンティックベンチマークであり、65の物理シーン、180,000件超の投影、そして、分離されたシーン／投影の意味論を個別に捉える高密度アノテーションを備える。
物理シーンの記述と投影コンテンツの記述を独立に評価するため、タスク固有のトークンを用いたデュアルキャプション評価プロトコルが定義される。
著者らは、ProCapが、インテリジェントなSARインタラクションのためのより頑健な意味的基盤をもたらし、コード、事前学習済みモデル、データセットを公開すると報告している。

要旨: 空間拡張現実（SAR）は、プロジェクタを用いてデジタルコンテンツを物理的なシーンへ直接投影し、ヘッドマウントディスプレイなしで没入型の体験を実現します。しかし、SARが、シーンについて推論したりユーザーの質問に答えたりするなどの知的なインタラクションを支援するためには、物理シーンと投影されたコンテンツを意味論的に区別できる必要があります。標準的なビジョン言語モデル（VLM）は、この仮想と現実のあいまいさに苦しみ、両方の文脈を混同することがよくあります。この問題に対処するために、私たちは、投影コンテンツと物理シーンを明示的にデカップル（分離）する新しい枠組みであるProCapを提案します。ProCapは2段階のパイプラインを採用します。まず、自動セグメンテーションによって仮想層と物理層を視覚的に分離します。次に、投影による歪みに起因するあいまいな意味的文脈を避けるために、領域（リージョン）を意識したリトリーバルを用います。これを支えるために、私たちはRGBP（RGB + 投影）を提示します。これは、初の大規模SAR意味ベンチマーク用データセットであり、65の多様な物理シーンと、密なデカップル注釈を備えた180,000件超の投影を含みます。最後に、物理シーンと投影の記述をそれぞれ独立に評価するために、タスク固有のトークンを用いたデュアルキャプション（2系統キャプション）評価プロトコルを確立します。私たちの実験の結果、ProCapは将来のSAR研究に対して堅牢な意味論的基盤を提供できることが示されました。ソースコード、事前学習済みモデル、RGBPデータセットはプロジェクトページで利用可能です: https://ZimoCao.github.io/ProCap/