TokenGS:学習可能なトークンによって3Dガウス予測をピクセルから切り離す

arXiv cs.CV / 2026/4/17

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • TokenGSは、フィードフォワード型3Dガウススプラッティング予測において、カメラ光線に沿った深度の回帰ではなく、3Dガウスの平均座標を直接回帰することで設計上の改善を提案しています。
  • 学習可能なガウストークンを用いるエンコーダ・デコーダ構成により、予測される3Dプリミティブの数を入力画像の解像度や参照ビュー数から切り離すことを可能にします。
  • 自己教師ありのレンダリング損失のみで学習することで、従来の不適切な前提に依存せずに表現を学ぶことを狙っています。
  • 実験では、ポーズノイズやマルチビューの不整合に対する頑健性が向上し、静的・動的の両方のシーンでフィードフォワード再構成の最先端性能を達成したと報告されています。
  • TokenGSは、トークン空間での効率的なテスト時最適化を可能にし、静的・動的分解やシーンドフローといった高次の属性の回復にも有利に働くとされています。

Abstract

本研究では、フィードフォワード型3Dガウススプラッティング(3DGS)予測のための、近年のTransformerベース手法におけるいくつかの重要な設計選択を見直します。一般的に行われている「カメラ光線に沿った深度としてガウスの平均を回帰する」という手法は不適切であると主張し、その代わりに自己教師ありレンダリング損失のみを用いて3D平均座標を直接回帰することを提案します。この定式化により、従来のエンコーダのみの設計から、学習可能なガウストークンを備えたエンコーダ–デコーダ型アーキテクチャへ移行でき、予測するプリミティブ数を、入力画像の解像度や視点数から切り離すことが可能になります。提案手法TokenGSは、姿勢ノイズやマルチビュー間の不整合に対して頑健性が向上する一方で、学習済みの事前分布(priors)を劣化させることなく、トークン空間での効率的なテスト時最適化を自然にサポートします。TokenGSは、静的シーンおよび動的シーンの両方において、最先端のフィードフォワード再構成性能を達成し、より正則化されたジオメトリと、よりバランスの取れた3DGS分布を生成します。さらに、静的–動的分解やシーンフローといった創発的なシーン属性も、途切れなく回復します。