3D空間における可視クエリ位置特定(Visual Query Localization)に向けて

arXiv cs.CV / 2026/5/5

📰 ニュースSignals & Early TrendsModels & Research

要点

  • 本論文は、クエリに基づいて時系列中の「最新の」関連イベントの時空間的な位置を予測する可視クエリ位置特定(VQL)を3Dで扱うための、最初のベンチマークとして3DVQLを提案しています。
  • 3DVQLは合計約17万フレームの2,002シーケンスを含み、38のオブジェクトカテゴリにわたって6.4K件のレスポンストラック区間をカバーし、点群・RGB画像・深度画像といった複数モダリティを提供します。
  • データセットのアノテーションはラベル品質を高めるため、複数ラウンドの検証と改良を経て手作業で作成されています。
  • 3DマルチモーダルVQLの代表的なベースラインモデルを実装し、融合モジュールの選択によって性能が大きく変動することを示しています。
  • リフト・アテンション融合(LaF)と呼ぶ手法を提案し、既存ベースラインより大幅に高い性能を達成し、ベンチマークとコードを公開予定です。

要旨: 視覚クエリ局在化(VQL)は、クエリが与えられたときに、ある系列における直近の出現に対する時空間的な応答を予測することを目指します。現在、研究の多くは2D動画における視覚クエリ局在化に取り組んでいますが、その3D空間における対応はほとんど注目されていません。本論文では、新しいベンチマーク「3DVQL」を導入することで、3D世界における視覚クエリ局在化に対処する最初の試みを行います。具体的に、3DVQLには38のオブジェクトカテゴリからなる約170,000フレームを含む2,002の系列と、6.4Kの応答トラック・セグメントが含まれています。3DVQLの各系列は、柔軟な研究を支えるために、点群、RGB画像、深度画像を含む複数のモダリティによって提供されます。高品質なアノテーションを保証するために、各系列は複数ラウンドの検証と改良によって手作業でアノテーションされています。私たちの知る限り、3DVQLは3Dマルチモーダル視覚クエリ局在化のための最初のベンチマークです。後続の研究における比較を容易にするため、点群とRGB画像を用いた一連の代表的な3DマルチモーダルVQLベースラインを実装します。実験結果は、既存手法が異なる融合モジュール間で大きく性能が変動することを示しています。今後の研究を促すために、LaFというリフト・アンド・アテンション融合アルゴリズムを提案し、既存のベースラインモデルを大幅に上回る性能を示します。私たちのベンチマークとモデルはhttps://github.com/wuhengliangliang/3DVQL で公開予定です。