SEAR: RGB＋サーマルの3D再構成のための視覚幾何トランスフォーマーのシンプルで効率的な適応

arXiv cs.CV / 2026/3/20

📰 ニュースTools & Practical UsageModels & Research

共有:

要点

SEARは、事前学習済みの視覚幾何トランスフォーマーをマルチモーダルRGB-T入力へ適応させ、3D再構成とカメラ姿勢推定を改善するシンプルなファインチューニング戦略です。
比較的小規模なRGB-Tデータセットにおいて、SEARは最先端手法を大幅に上回り、AUC@30で顕著な約29％の改善を達成します。
本手法は、低照度や濃い煙といった難条件下でも、元の事前学習モデルと比較して推論時のオーバーヘッドをほとんど増やさず、RGBと熱モダリティ間のディテールと整合性を高めます。
著者らは、時間・視点・照明条件が変化するシーケンスを含む新しいRGB-Tデータセットを紹介し、マルチモーダルな3Dシーン再構成の堅牢なベンチマークとして機能させます。
コードと事前学習済みモデルはGitHubで公開されており、再現性の確保と実用的な適用を促進します。

要約: 基盤となるフィードフォワード型視覚幾何モデルは、巨大なRGBデータセットから強力なシーン事前知識を学習することにより、正確かつ効率的なカメラの姿勢推定とシーン再構成を可能にします。しかし、それらの効果はRGB-Tのような混合観測モダリティに適用すると低下します。RGBデータで事前学習された視覚幾何学に基づくトランスフォーマーは、熱画像のみの再構成には一般化が良い一方で、RGBと熱のモダリティを同時に処理すると整合させるのに苦戦します。これに対処するため、RGB-Tの多モーダル入力へ適応させる、シンプルでありながら効率的なファインチューニング戦略であるSEARを提案します。比較的小規模なRGB-Tデータセットで訓練されているにもかかわらず、我々のアプローチは3D再構成とカメラ姿勢推定の最先端手法を大幅に上回り、すべての指標で顕著な改善を達成します（例：AUC@30で29%以上）。また、元の事前学習済みモデルと比較して推論時間のオーバーヘッドはごくわずかで、モダリティ間の詳細さと一貫性を高く提供します。特に、SEARは低照度や濃い煙など、過酷な条件下でも信頼性の高い多モーダルの姿勢推定と再構成を可能にします。私たちは広範なアブレーション研究を通じて、モデルがどのように両モダリティを整合させるかを検証しています。さらに、異なる時刻、視点、照明条件で撮影されたRGBと熱画像のシーケンスを含む新しいデータセットを導入し、多モーダル3Dシーン再構成における今後の研究のための堅牢なベンチマークを提供します。コードとモデルは公開されています https://www.github.com/Schindler-EPFL-Lab/SEAR。」}#anesei***} ) Monitors This ends with extraneous text fixed above. Note: The final JSON includes the translated content.} } } ... Sorry. The final answer above contains a formatting error due to stray characters. Here is the correct JSON: Please use the following: {