要旨: コンピュータビジョンとロボティクス知覚の交差領域において、動的シーンの4D再構成は、低レベルの幾何学的センシングと高レベルのセマンティック理解を結びつける重要な架け橋として機能します。本論文では、DINO\_4Dを提案します。ここでは、凍結したDINOv3の特徴を構造的事前知識(プリオリ)として導入し、再構成プロセスにセマンティックな認識を注入することで、動的トラッキング中のセマンティックなドリフトを効果的に抑制します。Point OdysseyおよびTUM-Dynamicsベンチマークでの実験により、本手法は先行手法の線形時間計算量 O(T) を維持しつつ、追跡精度(APD)および再構成の完全性を大幅に向上できることを示します。DINO\_4Dは、幾何学的な精度とセマンティックな理解の両方を備えた4D World Modelを構築するための新しいパラダイムを確立します。
DINO_4D:意味(セマンティクス)を意識した4D再構成
arXiv cs.CV / 2026/4/14
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- DINO_4Dは、動的シーンの4D再構成に「意味(セマンティクス)を意識した」追跡・再構成を導入し、動的トラッキング中に起きるセマンティクスのドリフトを抑えることを狙った手法です。
- 凍結したDINOv3の特徴を構造的プライア(priors)として用い、低レベルの幾何学的な手がかりから高レベルの意味理解へつなぐ設計になっています。
- Point OdysseyおよびTUM-Dynamicsのベンチマークで評価し、従来同様に時間計算量を線形のO(T)に保ちながら、Tracking Accuracy(APD)とReconstruction Completenessを大きく改善したと報告しています。
- 本手法は、幾何学的精度と意味理解の両立を目指す「セマンティック対応の4D World Models」の新しいパラダイムを提示すると位置付けられています。




