SMFormer: 基盤モデルとデータ拡張による自己教師ありステレオマッチングの強化

arXiv cs.CV / 2026/4/14

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、現実世界の擾乱によってフォトメトリック一貫性の仮定が破綻する問題に対処する、自己教師ありステレオマッチングのフレームワークSMFormerを提案する。
SMFormerは、識別力が高く擾乱に頑健な特徴表現を得るために、Vision Foundation Model（VFM）とFeature Pyramid Network（FPN）を統合する。
照明変化下でも特徴の一貫性を強制するデータ拡張戦略を提案し、さらに強い拡張サンプルと標準サンプル間での推定視差出力の一貫性を正則化する。
複数のベンチマークでの実験により、SMFormerは自己教師ありステレオ法の中で最先端（SOTA）の性能に到達し、教師ありレベルの結果に近づけることが示される。
難易度の高いBoosterベンチマークでは、SMFormerがCFNetのような一部の教師ありSOTA手法を上回ると報告されている。

Abstract

最近の自己教師ありステレオマッチング手法は、大きな進展を遂げています。これらは一般に、対応する点が視点間で同じ見え方（外観）を共有するという、フォトメトリック整合性（photometric consistency）の仮定に依存しています。しかし、この仮定は現実世界の撹乱によって損なわれる可能性があり、その結果として不正確な教師信号が生じ、教師あり手法に対して大きな精度ギャップが生まれます。この問題に対処するために、本論文ではSMFormerを提案します。SMFormerは、Vision Foundation Model（VFM）とデータ拡張によって導かれる、より信頼性の高い自己教師あり学習を統合する枠組みです。まず、Feature Pyramid Network（FPN）とともにVFMを導入し、さまざまな状況における撹乱に対して識別的で頑健な特徴表現を提供します。次に、さまざまな変換に対する頑健性を保証する、効果的なデータ拡張メカニズムを考案します。このデータ拡張メカニズムは、照明の変化の影響を受けた特徴と、学習された特徴との整合性を明示的に強制します。さらに、強い拡張サンプルから得られる輻輳（disparity）予測の出力整合性を、標準サンプルから生成されたものとの間で正則化します。複数の主要なベンチマークに関する実験により、提案手法SMFormerが自己教師あり手法の中で最先端（SOTA）の性能を達成し、さらには教師あり手法とも遜色なく競合できることが示されています。特筆すべきことに、困難なBoosterベンチマークでは、SMFormerはCFNetのようないくつかのSOTA教師あり手法をも上回ります。