TransSplat:言語による3DGS編集のためのアンバランス意味トランスポート

arXiv cs.CV / 2026/4/22

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、言語駆動の3Dガウススプラッティング(3DGS)編集における重要な制約として、従来手法が編集後の2D情報と3Dガウスの間の意味的対応関係を明示的に扱えていない点を指摘している。
  • TransSplatでは、言語駆動の3DGS編集を「マルチビュー・アンバランス意味トランスポート」問題として定式化し、表示されているガウスとビュー固有の編集プロトタイプ間の対応付けにより、2D証拠と3Dガウスの意味関係を明示的に特徴づける。
  • さらに、ビュー間で共有される正準(カノニカル)な3D編集フィールドを復元し、複数ビューにわたる3D外観の統一的な更新を導く。
  • 意図しない変更(編集の漏れ)を抑えるために、トランスポート残差を用いて非対象領域での誤った編集を抑制し、局所的な制御精度を高める。
  • 実験結果では、ビュー整合性の改善を中心とする既存の3D編集手法と比べて、TransSplatが局所編集の精度と構造的一貫性で優れた性能を示す。

Abstract

言語駆動型の3D Gaussian Splatting(3DGS)編集は、VR/ARにおける複雑なシーンの修正をより便利に行うアプローチを提供します。標準的なパイプラインでは通常、二段階の戦略が採用されます。すなわち、まず複数の2Dビューを編集し、その後、編集された観測に一致するように3D表現を最適化します。既存手法は主に、マルチビューの特徴融合、注意(attention)によるフィルタリング、あるいは反復的な再調整によってビュー整合性を改善します。しかし、それらは、より根本的な問題である、編集された2Dエビデンスと3Dガウスの間の意味的対応関係を明示的に扱えていません。そこで本研究では、この問題に取り組むためにTransSplatを提案します。TransSplatは、言語駆動型の3DGS編集を、マルチビューのアンバランスな意味輸送(unbalanced semantic transport)問題として定式化します。具体的には、本手法は、可視なガウスとビュー固有の編集プロトタイプとの間に対応関係を確立し、それにより、編集された2Dエビデンスと3Dガウスの間の意味的関係を明示的に特徴付けます。さらに、クロスビューで共有される正準(canonical)な3D編集フィールドを復元し、統一された3D外観の更新を導きます。加えて、輸送残差(transport residuals)を用いて、非対象領域における誤った編集を抑制し、編集の漏れ(edit leakage)を緩和するとともに、局所的な制御の精度を向上させます。定性的および定量的な結果は、ビュー整合性の強化を中心とした既存の3D編集手法と比較して、TransSplatが局所編集の正確性および構造的一貫性の点で優れた性能を達成することを示しています。