ロボティック・ポリシー学習における視点汎化のための効率的なカメラ姿勢オーグメンテーション

arXiv cs.RO / 2026/4/1

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、一般的な2D中心の視覚モーターロボティック・ポリシーが、静的な画像観測に行動が結び付いているために、新規視点への汎化が困難であると主張する。
そこで、単一の順伝播（forward pass）で、疎で校正されていない入力から高精度な3Dシーンを再構成できるフィードフォワード型の3D Gaussian Splatting（3DGS）フレームワーク「GenSplat」を提案する。
GenSplatは、頑健な再構成のための置換同変（permutation-equivariant）設計を用い、さらに、幾何学的な崩壊（geometric collapse）を、フォトメトリックな監督だけに依存することによる問題として緩和するための3Dプリオール蒸留（distillation）によって3DGS学習を正則化する。
この手法は、安定化された3D表現から多様な合成視点をレンダリングし、訓練観測のマニフォールドをオーグメンテーションすることで、ポリシーが根底にある3D構造に基づいて判断することを促す。
著者らは、これにより、空間的な摂動が厳しい場合でもより頑健なロボット実行が可能になり、従来ベースラインは大きく劣化すると主張している。

概要: 従来の2D中心の視覚運動（visuomotor）ポリシーは、新たな視点への汎化において顕著な欠陥を示します。これは、静的な観測に依存することにより、見たことのない視点に対して一貫した行動マッピングができなくなるためです。そこで本研究では、GenSplatを導入します。GenSplatは、ビュー汎化されたポリシー学習を可能にする、フィードフォワード型の3Dガウシアン・スプラッティング（3D Gaussian Splatting）フレームワークです。GenSplatは、パーミュテーション同変（permutation-equivariant）なアーキテクチャを用いて、単一の順伝播（forward pass）で、疎で未較正の入力から高忠実度な3Dシーンを再構成します。構造の完全性を保証するために、3DGSの最適化を正則化し、純粋にフォトメトリックな監督のみで起こりがちな幾何学的崩壊を防ぐ、3Dプライア（3D-prior）蒸留（distillation）戦略を設計します。これらの安定した3D表現から多様な合成視点をレンダリングすることで、学習中に観測マニフォールドを体系的に拡張します。この拡張により、ポリシーは基盤となる3D構造に意思決定を根付かせることが求められ、その結果、ベースラインが大きく性能低下するような深刻な空間的摂動下でも頑健に実行できることが保証されます。