VDPP: 速度とスケーラビリティのためのビデオ深度ポストプロセシング

arXiv cs.CV / 2026/4/9

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisTools & Practical UsageModels & Research

要点

  • 本論文では、VDPP(Video Depth Post-Processing)というモジュール型フレームワークを提案し、密結合のエンドツーエンドモデルを厳密に再学習するのではなく、既存のポストプロセシング手法を強化することで、ビデオ深度推定の改善を目指す。
  • VDPPは、低解像度空間における幾何学的なリファインメントを、密な残差学習により実現し、コストの高いシーン再構成の代わりに、より効率的な計算を行う。
  • 本手法は非常に高い実行性能を達成し、NVIDIA Jetson Orin Nano上で43.5 FPS超を報告しつつ、エンドツーエンドシステムと同等レベルの時間的な一貫性(temporal coherence)を維持する。
  • RGBに依存する代替手法とは異なり、VDPPはRGB不要(RGB-free)であるため、再学習なしに、進化する単一画像深度推定器へ即座に統合でき、真のスケーラビリティを実現する。
  • 著者らはVDPPを、エッジ展開を前提とした実用的なリアルタイムかつメモリ効率の高い解決策として位置づけ、先行するポストプロセシング手法が抱える速度・精度・スケーラビリティの制約に対処する。

概要: ビデオ深度推定は、自動運転からメタバース(複合現実)まで幅広いアプリケーションにおいて3Dシーン構造を提供するために不可欠です。現在のエンドツーエンドのビデオ深度モデルは、最先端の性能を確立しています。エンドツーエンド(E2E)モデルはいずれも最先端の性能を達成しているものの、これらは密結合なシステムとして動作するため、より優れた単一画像の深度推定器がリリースされた際に適応の遅れが大きく生じます。この問題を軽減するために、NVDSのようなポストプロセッシング手法は、再学習を行わずに、進化する任意の画像深度モデルを取り込むためのモジュール型のプラグアンドプレイ代替手段を提供します。しかし、既存のポストプロセッシング手法は、速度・精度・RGBへの依存の制約により、E2Eシステムの効率性や実用性に匹敵することが依然として難しいのが現状です。本研究では、ポストプロセッシングの役割を再活性化し、VDPP(Video Depth Post-Processing)という枠組みを提案します。これは、ビデオ深度推定におけるポストプロセッシング手法の速度と精度を向上させるものです。計算負荷の高いシーン再構成から、対象を絞った幾何学的なリファインメントへとパラダイムを転換することで、VDPPは低解像度空間における幾何学的なリファインメントのみで動作します。この設計により、NVIDIA Jetson Orin Nano上で>43.5 FPSという卓越した高速性を達成しつつ、E2Eシステムと同等の時間的一貫性を維持します。密な残差学習により、フルな再構成ではなく幾何表現を駆動します。さらに、VDPPはRGB不要のアーキテクチャを採用しているため、真にスケーラブルであり、進化する任意の画像深度モデルを即座に統合できます。実験結果は、VDPPが速度・精度・メモリ効率の最良のバランスを提供し、リアルタイムのエッジ展開にとって最も実用的な解となることを示しています。プロジェクトページは https://github.com/injun-baek/VDPP です