FluSplat：テスト時最適化なしの疎視点3D編集

arXiv cs.CV / 2026/4/23

📰 ニュースDeveloper Stack & InfrastructureModels & Research

共有:

要点

FluSplatは、疎視点から始めて複数視点で整合する3Dシーン編集を行うためのフィードフォワード手法を提案している。
2D拡散による編集と3D再構成をテスト時に反復して行う、計算コストの高い最適化ベースの手法の代わりに、学習時に画像領域でクロスビュー正則化を行う。
幾何学的アライメント制約を伴うマルチビュー編集の同時教師あり学習により、視点ごとの整合性を、シーンごとの推論時の追加最適化なしで実現する。
編集後の視点はフィードフォワード型の3D Gaussian Splatting（3DGS）モデルで3Dへ持ち上げられ、単一のフォワードパスで一貫した3DGS表現が得られる。
実験では、編集品質が最適化ベース手法に匹敵しつつ、視点間の整合性が大幅に改善され、推論時間も桁違いに短縮されることが示されている。

要旨: テキストガイド付き画像編集および3Dガウススプラッティング（3DGS）の最近の進展により、高品質な3Dシーン操作が可能になりました。しかし、既存のパイプラインは、テスト時に反復的な「編集とフィット」最適化に依存し、2D拡散編集と3D再構成を交互に行います。このプロセスは計算コストが高く、シーン固有であり、さらにビュー間の不整合が生じやすいという問題があります。
本研究では、疎なビューからのクロスビュー整合的な3Dシーン編集のための、フィードフォワード型の枠組みを提案します。反復的な3Dリファインメントによって整合性を強制するのではなく、学習中に画像領域でクロスビュー正則化手法を導入します。幾何学的アライメント制約を伴う複数ビューの編集を共同で監督することで、当社のモデルは、推論時のシーンごとの最適化なしに、ビュー整合的な結果を生成します。次に、編集されたビューをフィードフォワード型の3DGSモデルによって3Dへ持ち上げることで、単一のフォワードパスで首尾一貫した3DGS表現が得られます。
実験の結果、最適化ベースの手法と比較して、編集の忠実度が競争力のあることに加え、クロスビュー整合性が大幅に改善されることが示されました。また、推論時間は桁違いに短縮されます。