3Dビジュアル幾何推定のための重要要因を解き明かす
arXiv cs.CV / 2026/4/24
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- この研究は、フィードフォワード型のマルチフレーム視覚幾何推定における重要な弱点(フレーム間の一貫性は向上する一方で、単一フレームの精度では強いパー・フレーム手法に劣ることがある)を扱います。
- 大規模なアブレーション実験により、データの多様性と品質を増やすことが性能向上につながる一方で、一般的に採用される信頼度(confidence)を意識した損失や、ある種の勾配ベース損失が意図せず精度を下げる可能性があると示します。
- パーシーケンスとパーフレームの両方による整合(alignment)を同時に行う共同監督が結果を改善し、逆にローカル領域の整合は予想外に性能を悪化させます。
- 著者らは、深度マップ・カメラパラメータ・ポイントマップの整合を強制する整合(consistency)損失と、高解像度入力を効果的に活用する効率的なアーキテクチャの2つの改良を提案し、これらをCARVEに統合します。
- 点群再構成、動画深度推定、カメラのポーズ/内パラ推定の各実験で、CARVEが複数ベンチマークにわたり強力で頑健な性能を示すことが報告されています。



