MLG-Stereo：マルチステージのローカル・グローバル強化によるViTベースのステレオマッチング

arXiv cs.CV / 2026/4/23

📰 ニュースModels & Research

共有:

要点

本論文は、既存のViTベース手法よりも詳細推定と任意解像度画像への頑健性を高めることを目的に、ViTベースのステレオマッチング手法「MLG-Stereo」を提案しています。
マルチグラニュラリティ特徴ネットワークにより、グローバルな文脈とローカルな幾何情報のバランスを改善し、学習時と推論時のスケール不一致を抑えることを狙います。
ローカル・グローバル・コストボリュームを構築し、局所的な相関に加えてグローバルに配慮したマッチング情報を同時に捉えます。
ローカル・グローバル・ガイド付きリカレントユニットを導入し、グローバル情報のガイダンスに基づいて不確かさを局所的に反復最適化します。
複数のベンチマークで検証した結果、MiddleburyとKITTI-2015で従来の主要手法に対して競争力のある性能を示し、特にKITTI-2012では優れた結果を達成しています。

要旨: 深層学習の発展により、ViT（Vision Transformer）ベースのステレオマッチング手法は、その優れた頑健性とゼロショット能力によって大きな進展を遂げています。しかし、解像度感度への対応におけるViTの限界や、局所情報を相対的に軽視していることにより、ViTベース手法が細部を予測し、任意解像度の画像を扱う能力は、CNNベース手法に比べて依然として弱いです。これらの欠点に対処するため、我々はMLG-Stereoを提案します。これは、エンコーダ段階を超えてグローバルモデリングを拡張する、体系的なパイプラインレベルの設計です。まず、グローバルな文脈と局所的な幾何情報のバランスを効果的に取るためのMulti-Granularity Feature Networkを提案し、任意解像度の画像から包括的に特徴を抽出し、学習時と推論時のスケールのギャップを埋めることを可能にします。次に、局所的に相関する情報とグローバルに配慮したマッチング情報の両方を捉えるために、Local-Global Cost Volumeを構築します。最後に、グローバル情報のガイダンスのもとで、局所的に視差を反復的に最適化するLocal-Global Guided Recurrent Unitを導入します。複数のベンチマークデータセットで大規模な実験を行った結果、我々のMLG-Stereoは当該時期の主要手法と比較してMiddleburyおよびKITTI-2015ベンチマークで非常に競争力の高い性能を示し、さらにKITTI-2012データセットでは卓越した結果を達成します。