「容量」ではなく「変形の非整合性」:動的3Dガウススプラッティングにおける過学習の診断と緩和

arXiv cs.CV / 2026/4/21

📰 ニュースModels & Research

要点

  • 動的3Dガウススプラッティングは訓練ビューでは高いPSNRを示す一方で汎化が弱く、D-NeRFでは平均で訓練-テストのPSNRギャップが6.18 dB、シーンによっては最大11 dBに達する。
  • Adaptive Density Controlの系統的アブレーションにより、分割(splitting)を無効化するとガウス数が44K→3Kへ激減し、PSNRギャップも6.18 dB→1.15 dBへ大きく低下するため、分割が過学習に主に寄与することが示される。
  • ただし「容量」だけでは不十分で、各ガウスの変形場に局所な滑らかさを課すElastic Energy Regularization(EER)を加えると、ガウス数を増やしつつ訓練-テストのギャップが40.8%低減する。
  • チェックポイントでの変形歪みを直接測定すると、EERはひずみを平均で約99.7%低減し、全8シーンでEER適用時のガウスの中央値はベースラインの「最良挙動」上位1%未満よりも歪みが小さい。
  • さらにGADやPTDropといった正則化を併用するとギャップは最大57%まで低減でき、別の変形アーキテクチャや実モノキュラ動画にも転移し、品質コストは小さいことが確認される。

Abstract

動的3Dガウススプラッティング手法は、単眼動画で強い訓練ビューPSNRを達成しますが、汎化が不十分です。D-NeRFベンチマークでは、平均の訓練-テストPSNRギャップが6.18 dBであることを測定しており、個々のシーンでは11 dBまで上昇します。このギャップの大部分を説明する2つの発見を報告します。 発見1(分割の役割)。Adaptive Density Controlパイプライン(split, clone, prune, frequency, threshold, schedule)の系統的アブレーションにより、分割がギャップの80%以上を占めることが示されます。splitを無効化すると、クラウドが44Kから3Kのガウスに崩れ、ギャップも6.18 dBから1.15 dBに低下します。閾値を変化させる全アブレーションにおいて、ギャップは個数に対して対数線形(r = 0.995、ブートストラップ95% CI [0.99, 1.00])であり、容量(capacity)に基づく説明を示唆します。 発見2(変形コヒーレンスの役割)。しかし、容量による説明は不完全です。ガウスごとの変形場に対する局所滑らかさペナルティ—Elastic Energy Regularization(EER)—は、クラウドを85%増やしながら、ギャップを40.8%減少させます。訓練済みチェックポイント上でガウスごとの歪みを直接測定すると、EERは全8シーンで平均歪みを99.72%(中央値99.80%)低減します。8/8シーンで、EER下の中央値ガウスは、ベースライン下での1パーセンタイル(最も挙動が良い)ガウスよりも歪みが小さい(ストレスが少ない)ことがわかります。EERに加えて、さらに2つの正則化器を評価します。GADは損失率に応じた密度化(densification)閾値、PTDropはジッターで重み付けしたガウスドロップアウトです。GAD+EERはギャップを48%減少させます。PTDropを追加し、ソフトな成長上限(growth cap)を設けることで57%まで低減します。コヒーレンスは次の両方に対して汎化することを確認します。(a)異なる変形アーキテクチャ(Deformable-3DGS)では、λを再チューニングした条件でギャップが40.6%減少し、また(b)実際の単眼動画(4つのHyperNeRFシーン)では、D-NeRFと同じλで平均PSNRギャップが14.9%減少し、品質コストはほぼゼロです。動的3DGSにおける過学習は、パラメータ数ではなく、非コヒーレントな変形によって引き起こされます。