要旨:過去10年間における画像駆動のステレオマッチングの目覚ましい進歩にもかかわらず、合成から現実へのゼロショット(Syn-to-Real)汎化は依然として未解決の課題である。この不十分な汎化性能の主因は、ドメイン間のズレと、画像テクスチャに内在する不適切な(ill-posed)曖昧さにある。特に、遮蔽領域、テクスチャレス領域、反復的(繰り返し)な領域、ならびに非ラバート面(鏡面/透明)領域において顕著である。Syn-to-Realの汎化を改善するために、本研究では、GREATENという枠組みを提案する。この枠組みは、画像テクスチャの限界を補うために、表面法線をドメイン不変であり、かつ対象(オブジェクト)固有の、識別的な幾何学的手がかりとして組み込むものである。提案する枠組みは3つの主要コンポーネントから構成される。第一に、Gated Contextual-Geometric Fusion(GCGF)モジュールが、画像特徴における信頼できない文脈的手がかりを適応的に抑制し、フィルタされた画像特徴を法線に導かれた幾何学的特徴と融合させることで、ドメイン不変かつ識別的な文脈・幾何表現を構築する。第二に、Specular-Transparent Augmentation(STA)戦略により、非ラバート領域における誤解を招く視覚的手がかりに対してGCGFの頑健性を向上させる。第三に、スパース注意の設計により、遮蔽やテクスチャに関連する曖昧さを扱うためのGREAT-Stereoの微細な大域的特徴抽出能力を維持しつつ、Sparse Spatial(SSA)、Sparse Dual-Matching(SDMA)、Simple Volume(SVA)注意を含めて計算オーバーヘッドを大幅に削減する。SceneFlowなどの合成データのみで学習したGREATEN-IGEVは、Syn-to-Realで優れた性能を達成する。具体的には、FoundationStereo、Monster-Stereo、DEFOM-Stereoと比較して、それぞれETH3Dでエラーを30%削減し、非ラバートのBoosterで8.5%削減し、KITTI-2015で14.1%削減する。さらに、GREATEN-IGEVはGREAT-IGEVより19.2%高速に動作し、Middleburyにおいて最大768の視差範囲で高解像度(3K)推論をサポートする。
法線を備えた幾何学的に強化された効率的アテンション・チューニング:頑健なステレオマッチングのために
arXiv cs.CV / 2026/4/13
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- arXivの論文は、表面法線をドメイン不変な幾何学的手がかりとして用いることで、合成から実環境への汎化(Syn-to-Real)を改善することを目的としたステレオマッチングの枠組みGREATENを紹介する。
- 信頼性の低いテクスチャ/コンテキスト特徴を抑制し、法線に導かれる幾何学と融合して、より識別的な表現を得るための「Gated Contextual-Geometric Fusion(GCGF)」モジュールを提案する。
- 非ランバート面(例:鏡面反射/透明な表面)に対応するため、融合を誤解を招く視覚的手がかりに対してより頑健にする「Specular-Transparent Augmentation(STA)」戦略を追加する。
- 方法では、疎なアテンションのバリエーション(SSA, SDMA, SVA)を用いることで、遮蔽(occlusions)に対して微細な大域特徴抽出を維持しつつ計算コストを削減する。これにより、推論速度が向上し、高解像度(3K)の分散推定(disparity estimation)を可能にする。
- 実験では、合成データのみで学習した場合に大幅な誤差削減が示される。具体的には、ETH3Dでエラーが30%少なくなり、さらにランタイムも改善(ベースライン変種より19.2%高速)する。またMiddleburyでは分散範囲最大768をサポートする。
