姿勢非依存の対応付けによるロバストな3D幾何保持を実現する3Dマルチビュー・スタイライズ

arXiv cs.CV / 2026/4/14

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

マルチビュー3Dシーンへのアーティスティック・スタイル転送では、独立な各ビューの加工作業が対応関係を壊し、テクスチャのドリフトやエッジの歪み、陰影の不整合を招いてSLAM・深度推定・3D再構成を劣化させる問題を指摘している。
本研究は、学習中にカメラ姿勢や明示的3D表現を前提にせずに幾何を保つマルチビュー・スタイライズ手法を提案し、AdaIN風のスタイル損失（凍結VGG-19に基づく）と、幾何保持のための複合目的関数で最適化する。
ビュー間の構造安定化として、SuperPoint/SuperGlueによる対応ベース整合損失を導入し、スタイル化アンカービューの記述子が元のマルチビューで対応付けられた記述子と整合するよう拘束する。
深度の劣化を抑えるためにMiDaS/DPTに基づく深度保存損失とグローバル色アラインメント（深度モデルのドメインシフト低減）を加え、さらに段階的な重みスケジュールで幾何・深度制約の寄与を調整する。
Tanks and TemplesとMip-NeRF 360で評価し、CHD/DSDやDROID-SLAMの軌跡、点群のChamfer距離などで、対応・深度正則化が構造歪みを減らしSLAM安定性と復元幾何を改善することを示している。

要旨: 芸術的スタイル転送は画像や動画に対してはよく研究されている一方、多視点3Dシーンへの拡張は困難です。なぜなら、スタイライズが幾何学に配慮したパイプラインに必要な対応関係を壊してしまうことがあるからです。各視点に対して独立にスタイライズを行うと、テクスチャのドリフト、歪んだエッジ、一貫性のない陰影が生じやすくなり、SLAM、深度推定、多視点再構成が劣化します。この論文では、学習中にカメラ姿勢を仮定したり、明示的な3D表現を用いたりすることなく、下流の3Dタスクで使えるままの多視点スタイライズを扱います。
本研究では、シーンごとの推論時最適化（test-time optimization）を伴うフィードフォワードなスタイライズ・ネットワークを提案します。これは、見た目の転送と幾何学の保持を結びつけた複合目的関数のもとで学習されます。スタイライズは凍結したVGG-19エンコーダに由来するAdaINに着想を得た損失により駆動し、チャネルごとのモーメントをスタイル画像に一致させます。視点間で構造を安定化するために、SuperPointとSuperGlueに基づく対応関係ベースの整合性損失を提案します。これは、スタイライズされたアンカ視点の記述子が、元の多視点セットで一致付けられた記述子と一貫した状態を保つように拘束します。さらに、MiDaS/DPTを用いた深度保持損失を課し、グローバルな色の整合によって深度モデルのドメインシフトを低減します。段階的な重み付けスケジュールにより、幾何学と深度の制約を導入します。
評価はTanks and TemplesおよびMip-NeRF 360に対して、画像指標と再構成指標を用いて行います。スタイルの遵守と構造保持は、色ヒストグラム距離（CHD）および構造距離（DSD）で測定します。3Dの整合性については、単眼DROID-SLAMの軌跡と、逆投影した点群に対する対称Chamfer距離を用います。アブレーション結果では、対応関係と深度の正則化により構造の歪みが低減され、SLAMの安定性と再構成される幾何が改善します。MuVieCASTのベースラインがあるシーンでは、本手法は競争力のあるスタイライズを維持しつつ、軌跡および点群の整合性がより強くなります。