PanopticQuery: 4Dシーンのための統一されたクエリ時推論

arXiv cs.CV / 2026/4/8

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • PanopticQueryは、動的な4Dシーンを自然言語で問い合わせる際に、空間・時間・視点をまたいだ意味づけ(セマンティック・グラウンディング)を統一的に行う枠組みを提案しています。
  • 4D Gaussian Splattingによる高忠実な動的再構成に加え、多視点・複数時刻の2Dセマンティック予測を合意形成(コンセンサス)して一貫性のない出力を除去し、幾何学整合性を保ちながら4Dの構造化グラウンディングへ引き上げます。
  • これにより、属性だけでなく、時間的な行為(アクション)、空間関係、複数物体の相互作用といった複雑なセマンティクスを扱うことを目指しています。
  • 評価のために新ベンチマークPanoptic-L4Dを導入し、複雑な言語クエリにおいて従来手法を上回るSOTA結果を示したと報告しています。

Abstract

自然言語による問いを通じて動的な4D環境を理解するには、正確なシーン再構成だけでなく、空間・時間・視点にわたる堅牢なセマンティックな基底づけ(グラウンディング)も必要である。ニューラル表現を用いる近年の手法は4D再構成を前進させてきたが、それでもなお、相互作用、時間的な行為、空間関係といった複雑な意味論(セマンティクス)に関しては、文脈推論の点で限界が残っている。主要な課題は、ノイズを含み視点依存の予測を、グローバルに一貫した4D解釈へと変換することである。我々は、4Dシーンに対する統一的なクエリ時推論(query-time reasoning)のための枠組みであるPanopticQueryを提案する。我々のアプローチは、高忠実な動的再構成のための4D Gaussian Splattingに基づきつつ、複数の視点と時間フレームにまたがって2Dのセマンティック予測を集約することで、自 然言語クエリを基底づけるマルチビューの意味論的一致(セマンティック・コンセンサス)機構を導入する。このプロセスは一貫しない出力をフィルタリングし、幾何学的一貫性を強制し、ニューラルフィールドの最適化によって2Dのセマンティクスを構造化された4Dのグラウンディングへと持ち上げる。評価を支えるために、動的シーンにおける言語ベースのクエリに対する新しいベンチマークであるPanoptic-L4Dを提示する。実験の結果、PanopticQueryは複雑な言語クエリに対して新たな最先端の性能を達成し、属性、行為、空間関係、複数物体の相互作用を効果的に扱えることが示された。動画デモは補足資料で利用可能である。